FlyBase 2.0: la prossima generazione

Abstract

FlyBase (flybase.org) è una base di conoscenza che supporta la comunità di ricercatori che usano il moscerino della frutta, Drosophila melanogaster, come organismo modello. Il team di FlyBase cura e organizza una vasta gamma di informazioni genetiche, molecolari, genomiche e di sviluppo sulla Drosophila. All’inizio del 2018, “FlyBase 2.0” è stato rilasciato con un’interfaccia utente significativamente migliorata e nuovi strumenti. Tra questi importanti cambiamenti ci sono una nuova organizzazione dei risultati della ricerca in liste o tabelle interattive (hitlists), liste di riferimento migliorate e nuovi grafici del dominio proteico. Un’importante nuova classe di dati chiamata “strumenti sperimentali” consolida le informazioni sui ceppi di mosche utili e altre risorse relative a un gene specifico, il che migliora significativamente la capacità del ricercatore di Drosophila di progettare ed eseguire esperimenti. Con il rilascio di FlyBase 2.0, c’è stata anche una ristrutturazione dell’architettura di backend e un continuo sviluppo di interfacce di programmazione delle applicazioni (API) per l’accesso programmatico ai dati FlyBase. In questa recensione, descriviamo queste nuove caratteristiche e funzionalità principali del sito FlyBase 2.0 e come supportano l’uso di Drosophila come organismo modello per la scoperta biologica e la ricerca traslazionale.

INTRODUZIONE

FlyBase (flybase.org) è il principale repository e portale web per i dati genetici relativi a Drosophila melanogaster, il moscerino della frutta. Il Consorzio FlyBase è un team di curatori, sviluppatori ed educatori di quattro siti: Harvard University, University of Cambridge, Indiana University e University of New Mexico. FlyBase contiene dati curati dalla letteratura scientifica primaria che copre più di un secolo di ricerca genetica. Nel corso degli anni, il consorzio ha sviluppato nuovi formati di visualizzazione dei dati e nuovi strumenti bioinformatici per estrarre questi dati per la scoperta biologica e la ricerca traslazionale. Questi sforzi hanno trasformato FlyBase da un semplice database in una potente base di conoscenza.

Il sito FlyBase ha subito importanti cambiamenti dalla nostra ultima revisione due anni fa (1). Nel febbraio 2017, abbiamo rilasciato una versione beta del sito di prossima generazione, che abbiamo chiamato ‘FlyBase 2.0.’ Dopo un periodo di feedback pubblico e di rifinitura, FlyBase 2.0 ha sostituito il sito precedente nel dicembre 2017. In questa recensione, discuteremo ciò che è diverso e migliore di questo sito web di nuova generazione, e cosa ci si può aspettare da una visita al nuovo e migliorato FlyBase 2.0, ora e in futuro. Anche se in questa recensione ci concentriamo sui nuovi dati e strumenti, ci sono stati alcuni importanti cambiamenti all’interfaccia utente (UI) di FlyBase 2.0. Rimandiamo il lettore interessato alla precedente recensione NAR del 2017 per un’ampia discussione di altri aspetti di FlyBase (1).

QuickSearch E HITLISTS

Le statistiche di utilizzo indicano che la maggior parte degli utenti interrogano FlyBase attraverso ‘QuickSearch’ sulla home page. Nell’agosto del 2017, FlyBase ha aggiunto la scheda ‘GAL4 etc’ a ‘QuickSearch’. Questa ricerca ha risposto a un bisogno di lunga data di un modo gestibile per cercare in FlyBase GAL4 e altri driver binari, così come i segnalatori lacZ e GFP, utilizzando diversi tipi di modelli di espressione. La ricerca restituisce alleli, costrutti, inserzioni e stock disponibili, e ha un’opzione per visualizzare i risultati in gruppi associati (Figura 1). Inoltre segnala alcuni dei driver GAL4 più popolari in base alle informazioni di ordinazione delle scorte dal BDSC, e il numero di volte in cui sono citati nelle pubblicazioni (2). La scheda ‘GAL4 etc’ include anche un link a una lista completa di questi driver GAL4 ‘frequentemente usati’.

Figura 1.

Risultato della ricerca GAL4. Una tabella dei risultati di una ricerca usando la scheda QuickSearch ‘GAL4 etc’, con l’opzione di output ‘integrated table’ selezionata. I riferimenti incrociati sono usati per raggruppare insieme alleli, costrutti, inserzioni e stock associati. Due driver GAL4 ‘usati frequentemente’ sono contrassegnati.

Figura 1.

Risultato della ricerca GAL4. Una tabella dei risultati di una ricerca usando la scheda QuickSearch ‘GAL4 etc’, con l’opzione di output ‘integrated table’ selezionata. I riferimenti incrociati sono usati per raggruppare insieme alleli, costrutti, inserzioni e stock associati. Due driver GAL4 ‘frequentemente usati’ sono segnalati.

Anche se QuickSearch ha più schede per ricerche specifiche, la maggior parte delle persone usa la scheda generica ‘Search FlyBase’. Data l’importanza di questo punto di ingresso, abbiamo dedicato gran parte dei nostri sforzi a cambiare e migliorare fondamentalmente le ‘hitlist’ restituite da questa ricerca per FlyBase 2.0, sfruttando appieno la nuova architettura del sito (Figura 2). I miglioramenti all’interfaccia utente della pagina dei risultati includono un layout ‘responsivo’ per la visualizzazione su schermi piccoli (ad esempio gli smartphone), la paginazione per ridurre i tempi di caricamento e un nuovo modulo di ricerca incorporato.

Figura 2.

Search Result Hitlist. La pagina dei risultati della ricerca su FlyBase usando ‘Mad’ come termine di ricerca. Viene visualizzata una ‘hitlist’ che contiene geni, ceppi, alleli e molte altre classi di dati di FlyBase (alcuni non mostrati). Il pulsante di segnalazione del gene Mad è contrassegnato da una bandierina blu, che indica nuove annotazioni nella versione corrente; il passaggio del mouse sulla bandierina mostra un riassunto. L’elenco è incorniciato da una serie di strumenti per filtrare per classe di dati e specie, paginazione, visualizzazione e analisi.

Figura 2.

Search Result Hitlist. La pagina dei risultati della ricerca su FlyBase usando ‘Mad’ come termine di ricerca. Viene visualizzata una ‘hitlist’ che contiene geni, ceppi, alleli e molte altre classi di dati di FlyBase (alcuni non mostrati). Il pulsante di segnalazione del gene Mad è contrassegnato da una bandierina blu, che indica nuove annotazioni nella versione corrente; il passaggio del mouse sulla bandierina mostra un riassunto. L’elenco è incorniciato da una serie di strumenti per il filtraggio per classe di dati e specie, la paginazione, la visualizzazione e l’analisi.

Una caratteristica significativa della nuova hitlist è che è ‘mista’, cioè contiene tutte le classi di dati FlyBase corrispondenti al termine di ricerca. Ogni elemento corrispondente è in un pannello, contenente una selezione concisa di informazioni importanti (Figura 2). I badge codificati per colore lungo il margine destro permettono una rapida scansione delle voci per classe di dati (Figura 2). Una bandiera blu indica che nuovi dati sono stati allegati ad un elemento nella più recente versione di FlyBase (Figura 2). I pulsanti si collegano ai report di FlyBase, ai browser del genoma, o a nuove hitlist di elementi correlati, ad esempio un pannello per un dato gene conterrà pulsanti per alleli associati, stock, trascrizioni, polipeptidi e riferimenti (Figura 2). Ogni pannello di classe di dati contiene anche informazioni specifiche della classe; per esempio un pannello di allele mostrerà il mutageno usato per generare l’allele, qualsiasi inserzione associata e il numero di dichiarazioni fenotipiche allegate all’allele.

La hitlist mista può essere filtrata per specie o per classe di dati (Figura 2). Il filtro per specie ti permette di scegliere se includere/escludere i transgeni umani nelle mosche, così come i risultati non-melanogaster o non-Drosophila. I filtri della classe di dati possono essere impostati per visualizzare una hitlist più stretta composta da alcune classi di dati di interesse, o una singola classe di dati. Restringere i risultati della ricerca a una singola classe di dati sblocca gli strumenti e le opzioni di visualizzazione della singola classe. Notate che la maggior parte delle schede dello strumento QuickSearch generano direttamente hitlist di singole classi di dati.

Quando la hitlist viene filtrata a una singola classe di dati, diventa disponibile l’opzione di visualizzazione ‘Table’. La vista Tabella è una visualizzazione tabellare compatta verticalmente, con colonne ordinabili appropriate a quella classe (Figura 3). Una serie di strumenti di analisi diventa disponibile quando una hitlist comprende una singola classe di dati. Questi strumenti appaiono nella parte superiore della pagina della hitlist come una fila di pulsanti etichettati ‘Convert’, ‘Export’ e ‘Analyze’ (Figura 3). Il pulsante “Convert” è alimentato dai numerosi riferimenti incrociati tra le classi di dati, permettendovi, per esempio, di trasformare un elenco di geni in un elenco di riferimenti correlati, o un elenco di alleli in un elenco di inserzioni associate. Il pulsante Export (Esporta) porta la hitlist corrente in uno dei vari strumenti di FlyBase, come Batch Download o Feature Mapper. Questo è anche il modo migliore per scaricare una hitlist come insieme di ID FlyBase. Il pulsante Analyze può generare diversi tipi di brevi report che riassumono la hitlist, come le frequenze dei termini anatomici o delle classi fenotipiche per una hitlist di alleli, o può indirizzare la hitlist allo strumento Interactions Browser. Con questi miglioramenti, la hitlist è diventata un potente strumento per rivedere, raffinare e analizzare i risultati della ricerca in FlyBase.

Figura 3.

Visualizzazione della Hitlist dei risultati della ricerca. La pagina dei risultati della ricerca ‘Mad’, filtrata per la classe di dati Allele e commutata in visualizzazione tabella. Il menu dello strumento Export è stato ampliato.

Figura 3.

Visualizzazione tabellare della Hitlist dei risultati della ricerca. La pagina dei risultati della ricerca ‘Mad’, filtrata per la classe di dati Allele e commutata in visualizzazione tabella. Il menu dello strumento Esportazione è stato ampliato.

MIGLIORAMENTI DEI RAPPORTI

Ci sono state diverse modifiche notevoli ai rapporti di FlyBase che migliorano l’usabilità e la visualizzazione dei dati. Per esempio, tutti i report ora includono un pannello di navigazione sul lato destro della pagina (Figura 4). Questo pannello contiene collegamenti a tutte le sezioni di livello superiore del report e può essere utilizzato per saltare rapidamente alle sezioni di interesse. La sezione ‘Riferimenti’ di tutti i report è stata migliorata per facilitare il filtraggio e l’ordinamento degli elenchi di pubblicazioni (vedi la sezione ‘Riferimenti interattivi e abstract grafici’ più avanti per maggiori informazioni).

Figura 4.

FlyBase Gene Report. FlyBase Gene Report per il gene Cdk1. La sezione “General Information” serve come un “super-sommario” delle informazioni sul gene. Il menu ‘Report Sections’ a destra fluttua mentre l’utente scorre il rapporto, fornendo un facile strumento di navigazione. La sezione “Genomic Location” include collegamenti esterni ai browser del genoma presso NCBI, Ensembl, UCSC e PopFly.

Figura 4.

FlyBase Gene Report. FlyBase Gene Report per il gene Cdk1. La sezione “General Information” serve come un “super-sommario” delle informazioni sul gene. Il menu ‘Report Sections’ a destra fluttua mentre l’utente scorre il rapporto, fornendo un facile strumento di navigazione. La sezione di localizzazione genomica include collegamenti esterni ai browser del genoma presso NCBI, Ensembl, UCSC e PopFly.

Le informazioni funzionali sintetiche per i geni sono importanti per gli utenti del nostro sito, specialmente quelli coinvolti nella ricerca traslazionale. Nel corso degli ultimi anni, la sezione superiore “General Information” di FlyBase Gene Reports si è evoluta in un “super-summario”, che comprende un’ampia varietà di dati generali sui geni (Figura 4). In FlyBase 2.0, questo include un Gene Snapshot, un riassunto generato automaticamente, la descrizione del Gene Group a cui il gene appartiene (3), i dati sulla funzione UniProt, le informazioni storiche del Red Book (4), e un riassunto da Interactive Fly (http://www.sdbonline.org/fly/aimain/1aahome.htm), quando questi sono disponibili. Gene Snapshots sono riassunti scritti a mano che sono sollecitati da ricercatori con esperienza in quel gene, e forniscono una rapida panoramica di ciò che è noto sulla funzione di quel gene (1).

Un altro utile riassunto in FlyBase 2.0 Gene Reports è il “nastro di riassunto GO” (Figura 5). Questi nastri sono stati precedentemente implementati nel Mouse Genome Database (MGD) (5), e mostrano graficamente una distillazione di alto livello dei termini della Gene Ontology (GO) (6). Questo nastro utilizza la struttura gerarchica dell’Ontologia per condensare la curatela GO a poche decine di termini di alto livello, che vengono poi visualizzati con chip di intensità di colore che indicano il numero di annotazioni. Termini più specifici vengono visualizzati come popup passando il mouse su una singola cella, o possono essere visualizzati in forma tabellare nella sezione Gene Ontology del report. Il nastro GO migliora significativamente la capacità del ricercatore di valutare rapidamente ciò che è noto sulla funzione di un gene.

Figura 5.

Nastro riassuntivo GO. GO summary ribbon per il gene Cdk1 di D. melanogaster, come incorporato in un FlyBase Gene Report.

Figura 5.

GO Summary Ribbon. Nastro riassuntivo GO per il gene Cdk1 di D. melanogaster, incorporato in un FlyBase Gene Report.

I Gene Report di FlyBase 2.0 ora includono grafici di domini proteici da due fonti di dati InterPro, Pfam e SMART, quando disponibili (7,8). I report polipeptidici visualizzano le informazioni sul dominio per l’isoforma specifica, mentre i report genici visualizzano l’isoforma più lunga. I popup e le tabelle del mouseover mostrano dati di dominio più dettagliati e forniscono collegamenti ai rapporti InterPro. Queste visualizzazioni completano le tracce nei browser del genoma che mostrano questi stessi dati allineati ai modelli genici (vedi sotto).

STRUMENTI ESPERIMENTALI

Una funzione indispensabile di FlyBase è come fonte di informazioni sui ceppi di mosche e sui reagenti per progettare esperimenti. L’importanza di questa funzione è stata evidenziata da un sondaggio FlyBase del 2012 in cui ∼90% degli intervistati ha dichiarato di trovare FlyBase “molto utile” o di “non poterlo fare senza FlyBase”. A questo scopo, abbiamo creato una nuova classe di dati ‘Experimental Tool’. I report descrivono gli strumenti utilizzati per il rilevamento del prodotto genico (ad esempio il tag FLAG, EGFP), il targeting subcellulare (ad esempio il segnale di localizzazione nucleare, la sequenza del segnale), l’espressione in un sistema binario (ad esempio UAS, GAL4), o l’espressione clonale/condizionale (ad esempio FLP, FRT). Ogni rapporto Experimental Tool fornisce una descrizione dello strumento e dei suoi usi, insieme a tabelle navigabili di costrutti transgenici correlati. Queste tabelle elencano i componenti del costrutto (ad esempio la regione regolatrice, il prodotto codificato), gli alleli transgenici e i costrutti, tutti collegati agli stock in modo che i ricercatori possano identificare facilmente i ceppi di mosca utili. Per trovare più facilmente questi strumenti, essi sono anche visualizzati sui rapporti degli alleli e dei costrutti pertinenti, e la nuova classe di dati dello strumento sperimentale è stata aggiunta alle hitlist interattive. Questa nuova classe di dati di strumenti sperimentali migliora ulteriormente FlyBase come una risorsa importante per la ricerca sulla Drosophila.

MULTI-SPECIES MINING AND TRANSLATIONAL RESEARCH

Per un certo numero di anni, FlyBase ha ospitato dati e sviluppato strumenti per identificare gli ortologhi dei geni della mosca in più organismi. Questo ha incluso i dati di ortologia da OrthoDB (https://www.orthodb.org/, PMID:27899580) (9) e meta-analisi da DIOPT (https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) (10). Le chiamate di ortologia di OrthoDB in FlyBase sono state aggiornate nel 2017, e ora includono molte specie di Drosophila, altri insetti e molte altre specie. Oltre ai link al gene ortologo, Gene Reports ora include i link ai gruppi OrthoDB, che permette all’utente di identificare gli ortologhi in un massimo di 5000 specie.

DIOPT è una meta-analisi di molti diversi algoritmi di predizione dell’ortologia (incluso OrthoDB), recentemente aggiornato nel 2018 per includere Arabidopsis thaliana e tre nuovi algoritmi di predizione. In FlyBase Gene Reports, le chiamate di ortografia DIOPT e OrthoDB tra Drosophila melanogaster e un nucleo di altre specie di organismi modello sono aggregate in una visualizzazione compatta per produrre un riassunto informativo. Questa sezione mostra anche i link all’allineamento della proteina con l’ortologo predetto e indica se l’ortologo umano, quando trasferito in Drosophila, integra funzionalmente il mutante della mosca.

FlyBase 2.0 ha collaborato con i gruppi di Norbert Perrimon e Hugo Bellen per sviluppare nuovi strumenti online che permettono di cercare la funzione di un gene ortologo (Gene2Function;http://gene2function.org) (11), la conservazione dei siti di fosforilazione e altre modifiche post-traslazionali delle proteine (https://www.flyrnai.org/tools/iproteindb/web/) (bioRxiv https://doi.org/10.1101/310854), le interazioni geniche tra organismi (MIST;http://fgrtools.hms.harvard.edu/mist) (12), e uno strumento di ricerca che restituisce diverse informazioni su ortologi, genetica umana e malattie (MARRVEL;http://marrvel.org) (13). Questi e altri utili collegamenti a risorse esterne sono presenti come icone nella barra laterale della home page di FlyBase. Questi sono solo alcuni degli esempi di come FlyBase sta continuando a collaborare con terze parti per sviluppare nuovi strumenti e sostenere le scoperte fondamentali della comunità di Drosophila e la ricerca traslazionale.

Negli ultimi anni, il Consorzio FlyBase ha aumentato la sua partecipazione a The Alliance of Genome Resources (The Alliance;https://alliancegenome.org) (14). La ‘Alliance’ è una collaborazione per consolidare e omogeneizzare la presentazione dei dati tra diversi organismi modello, e integrarli con quelli degli esseri umani, per accelerare la scoperta biologica e la ricerca traslazionale. L’Alliance rappresenta attualmente la collaborazione di sei database di organismi modello (Saccharomyces Genome Database, WormBase, FlyBase, Zebrafish Information Network, Mouse Genome Database, Rat Genome Database) e il progetto Gene Ontology (GO). Le attività dell’Alleanza fanno parte del programma NIH Common Fund’s Big Data to Knowledge (https://commonfund.nih.gov/bd2k), un importante obiettivo del quale è lo sviluppo di un ‘Data Commons’ (https://commonfund.nih.gov/commons). Questo Data Commons sarà il repository per i big data generati dalla ricerca finanziata da NIH, con opportune API che assicurano che sia accessibile a tutti in un formato che sia trovabile, accessibile, interoperabile e riutilizzabile (FAIR). Negli ultimi due anni, FlyBase ha fornito grandi set di dati al Data Commons e ha sviluppato API per facilitare il loro utilizzo. La fase pilota di Data Commons fa parte del piano strategico NIH per la scienza dei datihttps://www.nih.gov/news-events/news-releases/nih-releases-strategic-plan-data-science per sviluppare nuovi metodi per l’archiviazione, la condivisione e l’analisi dei dataset derivati da NIH nell’ambiente cloud. Per ulteriori informazioni su questi programmi, l’Alleanza e il ruolo di FlyBase in essi, rimandiamo il lettore ad una recente revisione completa (14).

REFERENZE INTERATTIVE E ABSTRATTI GRAFICI

Quasi tutte le pagine di report di FlyBase hanno una sezione ‘Riferimenti’ che contiene una lista di pubblicazioni associate a una data entità (gene, allele, inserzione, ecc.). Questa sezione è stata migliorata in FlyBase 2.0 con una barra laterale interattiva che permette all’utente di filtrare per tipo di pubblicazione, ad esempio ‘research paper’ o ‘review’ (Figura 6). Gli utenti possono anche ordinare per anno o autore, cercare per testo, ed esportare le liste di pubblicazioni modificate in Batch Download, come HitList, o come citazioni RIS per il loro reference manager preferito. Per il Gene Report, una delle sfide crescenti è distinguere tra gli articoli che si concentrano su un gene da quelli che hanno solo un riferimento minore ad esso, per esempio come un punto dati in un’analisi genomica. Per aiutare l’utente a identificare gli articoli più rilevanti per quel gene, abbiamo introdotto una sezione “pubblicazione rappresentativa”. Questa categoria contiene fino a 25 articoli che FlyBase ha identificato come i più informativi per quanto riguarda l’identificazione e la funzione di un particolare gene. Per identificare queste pubblicazioni rappresentative, abbiamo sviluppato un algoritmo che classifica gli articoli per rilevanza, in base alla quantità e alla natura dei dati curati per il dato gene, dando priorità soprattutto agli articoli che menzionano il gene nel titolo o nell’abstract. La capacità di identificare gli articoli più informativi tra le centinaia che menzionano un gene, insieme alle altre capacità di ordinamento della sezione di riferimento, inizia ad affrontare il problema di affrontare la letteratura biologica in rapida crescita.

Figura 6.

Sezione riferimenti interattiva. Sezione Riferimenti con opzioni per filtrare per tipi di pubblicazione (barra laterale sinistra), incluse pubblicazioni rappresentative, e varie opzioni di ordinamento, ricerca ed esportazione.

Figura 6.

Sezione Riferimenti interattiva. Sezione Referenze con opzioni per filtrare in base al tipo di pubblicazione (barra laterale sinistra), comprese le pubblicazioni rappresentative, e varie opzioni di ordinamento, ricerca ed esportazione.

Un altro modo in cui FlyBase sta cercando di aiutare gli utenti a trovare la letteratura rilevante è l’inclusione di ‘abstract grafici’ – immagini che riassumono i risultati di un articolo, introdotti per la prima volta da Cell Press alcuni anni fa. FlyBase ha stipulato un accordo con Cell Press per visualizzare gli abstract grafici nella relazione di riferimento corrispondente. Le miniature di questi abstract grafici sono anche incluse nei pannelli per le voci della hitlist di riferimento, quando disponibili. Cliccando sull’abstract grafico l’utente viene indirizzato all’abstract e al documento presso Cell Press.

NEW GENOME BROWSER TRACKS E MIGRAZIONE DA GBrowse A JBrowse

Per un certo numero di anni, il genome browser GBrowse in FlyBase ha visualizzato modelli di geni annotati e molte altre caratteristiche mappate del genoma e dell’epigenoma, tutte mostrate come ‘tracce’ separate (15) Le tracce uniche per FlyBase includono grafici di segnale di RNA-Seq da diversi progetti nel tempo dello sviluppo o in risposta a stimoli ambientali e domini proteici allineati al ceppo di riferimento del genoma D. melanogaster ceppo di riferimento del genoma (1). Le informazioni sui domini proteici sono state migliorate con una nuova traccia che mostra i domini predetti da SMART, integrando la traccia “Pfam” precedentemente implementata, e fornendo una seconda visione indipendente di quali domini proteici sono codificati da un gene e come sono distribuiti tra gli esoni (7,8). Gene e Polypeptide Reports contengono anche schemi di questi domini (vedi miglioramenti Report, sopra).

Mentre GBrowse è stata la piattaforma del browser del genoma FlyBase per molti anni, con FlyBase 2.0 abbiamo iniziato a migrare le tracce del genoma ad un browser del genoma di nuova generazione chiamato JBrowse (16). JBrowse ha una serie di caratteristiche uniche che migliorano la facilità di navigazione del genoma e la funzionalità, come una maggiore velocità e reattività, tracce configurabili, selezione delle tracce sullo stesso schermo e navigazione click-and-drag. La maggior parte delle pagine con collegamenti al browser del genoma in FlyBase 2.0 attualmente consente agli utenti di scegliere tra GBrowse e JBrowse. Una volta che la nostra migrazione a JBrowse è completa, GBrowse sarà deprecato ma ancora accessibile per un anno, dopo di che JBrowse sarà l’unico browser del genoma ospitato da FlyBase. Oltre ai browser del genoma su FlyBase, abbiamo recentemente aggiunto collegamenti all’interno della sezione “altre viste del genoma” del Gene Report ai browser di NCBI, Ensembl, UCSC e PopFly, che hanno annotazioni e funzionalità diverse (Figura 4). Per esempio, il browser PopFly mostra i polimorfismi del DNA identificati nelle popolazioni naturali di D. melanogaster. FlyBase valuta continuamente nuovi set di dati della comunità per l’inclusione nei nostri browser del genoma. I piani attuali includono miglioramenti all’annotazione del proteoma dello sviluppo e l’aggiunta di posizioni di siti bersaglio gRNA efficienti per l’ingegneria CRISPR che sono stati predetti dal Drsosophila RNAi Screening Center (DRSC) (https://fgr.hms.harvard.edu/) (17).

NUOVI STRUMENTI PER GLI UTENTI POTENTI

La costruzione di FlyBase 2.0 ha comportato un cambiamento significativo all’architettura di backend che ha permesso nuove capacità per gli ‘utenti potenti’. Abbiamo migliorato la compatibilità con il cloud, aggiunto un’interfaccia di programmazione delle applicazioni (API) (https://flybase.github.io/), e riorganizzato fondamentalmente il codice per avere una struttura più modulare. Continuiamo a supportare un database Chado accessibile al pubblico (https://flybase.github.io/) e il download di XML, FASTA, GFF, GTF, e altri file di dati in blocco tramite il nostro sito FTP (ftp://ftp.flybase.org/).

CONNESSIONI CON LA COMUNITÀ

FlyBase trae grande beneficio da una comunità di utenti ben impegnata. Dal 2014, il FlyBase Community Advisory Group (FCAG), un gruppo di oltre 500 ricercatori in tutto il mondo con l’impegno di migliorare FlyBase, ha risposto a sondaggi regolari con informazioni preziose su come i ricercatori utilizzano effettivamente FlyBase, e suggerimenti per nuove funzionalità. Questo feedback continua a modellare il modo in cui FlyBase si adatta ai nuovi dati e alle esigenze degli utenti. Il nostro obiettivo è di avere un rappresentante nel FCAG da ogni laboratorio di Drosophila; i nuovi rappresentanti possono registrarsi seguendo il link FlyBase Community Advisory Group sotto il menu Community su FlyBase (http://flybase.org/wiki/FlyBase:Community_Advisory_Group). Un altro sforzo continuo è la produzione di video tutorial, che ha subito un’accelerazione negli ultimi due anni con otto nuovi video pubblicati sul nostro canale YouTube (https://www.youtube.com/c/FlyBaseTV), che coprono varie tecniche di ricerca, nuove caratteristiche del sito FlyBase 2.0, e JBrowse. Il nuovo sito web mostra anche il FlyBase Twitter feed (https://twitter.com/FlyBaseDotOrg) sulla barra laterale sinistra della homepage, che usiamo per avvisare gli utenti di nuovi dati e caratteristiche e di notizie di attualità rilevanti per la comunità dei mosconi.

Guardando al futuro

Una sfida futura sarà quella di tenere il passo con la crescita accelerata delle informazioni biologiche, compresa la quantità sempre maggiore di big data dai nuovi metodi high-throughput. Tra questi nuovi metodi c’è il sequenziamento dell’RNA di una singola cellula (RNA-Seq), che produce volumi di informazioni temporali e spaziali a grana fine sull’espressione genica. Per realizzare il pieno potenziale di questo metodo, sarà imperativo sviluppare nuovi approcci per integrare e visualizzare la grande quantità di dati in un formato interattivo che sia utile e facile. FlyBase continuerà ad integrare i dati del proteoma dello sviluppo non appena saranno disponibili, e li integrerà con i dati RNA-Seq attraverso display grafici e JBrowse per produrre un potente strumento per la genomica funzionale. Lo sviluppo futuro di nuovi display interattivi per i percorsi e le interazioni tra questi prodotti genici potenzierà ulteriormente un approccio sistemico alla comprensione delle reti cellulari. Prevediamo anche l’integrazione di altre classi di dati fondamentalmente nuove. Tra queste ci sono i percorsi metabolici di Drosophila e il microbioma, la popolazione di microrganismi nella e sulla mosca. Dato che la costruzione di FlyBase e altre MOD è stata gene-centrica, l’integrazione di questi dati presenterà nuove sfide e richiederà collaborazioni e collegamenti di terze parti. Naturalmente, affrontare tutte queste sfide della crescita delle informazioni biologiche dipenderà dalla disponibilità di risorse sufficienti.

FlyBase continuerà anche come membro attivo dell’Alliance of Genome Resources (The Alliance; https://alliancegenome.org) (14). Questo includerà gli sforzi per omogeneizzare i dati e sviluppare nuove visualizzazioni e strumenti per la ricerca fondazionale e traslazionale. Parte di questi sforzi sarà la creazione di nuove API che permettono agli utenti di recuperare e lavorare con i grandi set di dati depositati nel NIH Data Commons. Questi saranno importanti sforzi futuri dato che il torrente di big data e l’importanza della bioinformatica per la ricerca biomedica continua ad aumentare.

Negli ultimi 27 anni FlyBase si è evoluto da un semplice database in una potente base di conoscenza. Oltre al suo ruolo essenziale di curare e diffondere i dati delle mosche, FlyBase continua a sviluppare nuovi strumenti per la scoperta della funzione dei geni negli organismi e i loro legami con le malattie umane (18). FlyBase rimane essenziale per supportare i numerosi tipi di dati specifici della comunità di ricerca sui volatili, in modo che il pieno potenziale della drosofila per la scoperta biologica e la ricerca traslazionale possa essere realizzato (19). Continuare a costruire sulla base di conoscenza FlyBase 2.0 permetterà alla comunità di Drosophila di esplorare nuove idee, di cercare nuovi aspetti della vita, e di andare coraggiosamente dove nessuno è andato prima.

Riconoscimenti

Vorremmo ringraziare gli altri PI, curatori e sviluppatori di FlyBase per i loro commenti sul manoscritto. Un ringraziamento speciale va a Julie Agapite e Victoria Jenkins per il loro ampio contributo editoriale. Al momento della scrittura, i membri del Consorzio FlyBase includono: Norbert Perrimon, Susan Russo Gelbart, Julie Agapite, Kris Broll, Lynn Crosby, Gilberto dos Santos, David Emmert, L. Sian Gramates, Kathleen Falls, Victoria Jenkins, Beverley Matthews, Carol Sutherland, Christopher Tabone, Pinglei Zhou, Mark Zytkovicz, Nick Brown, Giulia Antonazzo, Helen Attrill, Phani Garapati, Alex Holmes, Aoife Larkin, Steven Marygold, Gillian Millburn, Clare Pilgrim, Vitor Trovisco, Pepe Urbano, Thomas Kaufman, Brian Calvi, Bryon Czoch, Josh Goodman, Victor Strelets, Jim Thurmond, Richard Cripps, Phillip Baker.

FUNDING

FlyBase è finanziato da NIH, NHGRI; UK Medical Research Council . Finanziamento per l’accesso aperto a pagamento: NIH, NHGRI .

Dichiarazione di conflitto di interessi. Nessuno dichiarato.

Gramati
L.S.

,

Marygold
S.J.

,

Santos
G.D.

,

Urbano
J.M.

,

Antonazzo
G.

,

Matthews
B.B.

,

Rey
A.J.

,

Tabone
C.J.

,

Crosby
M.A.

,

Emmert
D.B.

et al.

FlyBase a 25 anni: guardando al futuro

.

Nucleic Acids Res.
2017

;

45

:

D663

D671

.

Cook
K.R.

,

Parks
A.L.

,

Jacobus
L.M.

,

Kaufman
T.C.

,

Matthews
K.A.
Nuove risorse di ricerca al bloomington drosophila stock center

.

Fly

.

2010

;

4

:

88

91

.

Attrill
H.

,

Cade
K.

,

Goodman
J.L.

,

Millburn
G.H.

,

Antonazzo
G.

,

Rey
A.J.

,

S.J.
Marygold.
FlyBase Consortium
FlyBase: establishing a Gene Group resource for Drosophila melanogaster

.

Nucleic Acids Res.
2016

;

44

:

D786

D792

.

Lindsley
D.L.

,

Zimm
G.G.
Il genoma di Drosophila Melanogaster

.

1992

;

San Diego

:

Academic Press

.

Smith
C.L.

,

Blake
J.A.

,

Kadin
J.A.

,

Richardson
J.E.

,

Bult
C.J.
Mouse Genome Database, G.
Mouse Genome Database (MGD)-2018: knowledgebase per il mouse da laboratorio

.

Nucleic Acids Res.
2018

;

46

:

D836

D842

.

The Gene Ontology Consortium
Espansione della base di conoscenze e risorse dell’ontologia genica

.

Nucleic Acids Res.
2017

;

45

:

D331

D338

.

Finn
R.D.

,

Coggill
P.

,

Eberhardt
R.Y.

,

Eddy
S.R.

,

Mistry
J.

,

Mitchell
A.L.

,

Potter
S.C.

,

Punta
M.

,

Qureshi
M.

,

Sangrador-Vegas
A.

et al.

The Pfam protein families database: towards a more sustainable future

.

Nucleic Acids Res.
2016

;

44

:

D279

D285

.

Letunic
I.

,

Bork
P.
20 years of the SMART protein domain annotation resource

.

Nucleic Acids Res.
2018

;

46

:

D493

D496

.

Zdobnov
E.M.

,

Tegenfeldt
F.

,

Kuznetsov
D.

,

Waterhouse
R.M.

,

Simao
F.A.

,

Ioannidis
P.

,

Seppey
M.

,

Loetscher
A.

,

Kriventseva
E.V.
OrthoDB v9.1: catalogazione di annotazioni evolutive e funzionali per ortologhi animali, fungini, vegetali, archei, batterici e virali

.

Nucleic Acids Res.
2017

;

45

:

D744

D749

.

Hu
Y.

,

Flockhart
I.

,

Vinayagam
A.

,

Bergwitz
C.

,

Berger
B.

,

Perrimon
N.

,

Mohr
S.E.
Un approccio integrativo alla predizione degli ortologi per studi focalizzati sulle malattie e altri studi funzionali

.

BMC Bioinformatica

.

2011

;

12

:

357

.

Hu
Y.

,

Comjean
A.

,

Mohr
S.E.

,

FlyBase
C.

,

Perrimon
N.
Gene2Function: An integrated online resource for gene function discovery

.

2017

;

7

:

2855

2858

.

>

Hu
Y.

,

Vinayagam
A.

,

Nand
A.

,

Comjean
A.

,

Chung
V.

,

Hao
T.

,

Mohr
S.E.

,

Perrimon
N.
Molecular Interaction Search Tool (MIST): an integrated resource for mining gene and protein interaction data

.

Nucleic Acids Res.
2018

;

46

:

D567

D574

.

Wang
J.

,

Al-Ouran
R.

,

Hu
Y.

,

Kim
S.Y.

,

Wan
Y.W.

,

Wangler
M.F.

,

Yamamoto
S.

,

Chao
H.T.

,

Comjean
A.

,

Mohr
S.E.

et al.

MARRVEL: Integrazione di risorse genetiche umane e di organismi modello per facilitare l’annotazione funzionale del genoma umano

.

Am. J. Hum. Genet.
2017

;

100

:

843

853

.

Howe
D.G.

,

Blake
J.A.

,

Bradford
Y.M.

,

Bult
C.J.

,

Calvi
B.R.

,

Engel
S.R.

,

Kadin
J.A.

,

Kaufman
T.C.

,

Kishore
R.

,

Laulederkind
S.J.F.

et al.

Model organism data evolving in support of translational medicine

.

Lab. Anim. (NY)

.

2018

;

47

:

277

289

.

Stein
L.D.
Using GBrowse 2.0 to visualize and share next-generation sequence data

.

Brief. Bioinform.
2013

;

14

:

162

171

.

Buels
R.

,

Yao
E.

,

Diesh
C.M.

,

Hayes
R.D.

,

Munoz-Torres
M.

,

Helt
G.

,

Goodstein
D.M.

,

Elsik
C.G.

,

Lewis
S.E.

,

Stein
L.

et al.

JBrowse: a dynamic web platform for genome visualization and analysis

.

Genome Biol.
2016

;

17

:

66

.

Mohr
S.E.

,

Hu
Y.

,

Ewen-Campen
B.

,

Housden
B.E.

,

Viswanatha
R.

,

Perrimon
N.
CRISPR guide RNA design for research applications

.

FEBS J.
2016

;

283

:

3232

3238

.

Wangler
M.F.

,

Yamamoto
S.

,

Bellen
H.J.
Fruit flies in biomedical research

.

Genetics

.

2015

;

199

:

639

653

.

Bilder
D.

,

Irvine
K.D.
Fare il punto sull’ecosistema della ricerca sulla Drosophila

.

Genetics

.

2017

;

206

:

1227

1236

.

Note dell’autore

I membri del Consorzio FlyBase sono elencati nei ringraziamenti.

© The Author(s) 2018. Published by Oxford University Press on behalf of Nucleic Acids Research.
Questo è un articolo ad accesso aperto distribuito secondo i termini della Creative Commons Attribution License (http://creativecommons.org/licenses/by/4.0/), che permette il riutilizzo, la distribuzione e la riproduzione illimitati su qualsiasi supporto, purché l’opera originale sia adeguatamente citata.

Lascia un commento

Il tuo indirizzo email non sarà pubblicato.