FlyBase 2.0 : la prochaine génération

Abstract

FlyBase (flybase.org) est une base de connaissances qui soutient la communauté des chercheurs qui utilisent la mouche des fruits, Drosophila melanogaster, comme organisme modèle. L’équipe de FlyBase conserve et organise un éventail diversifié d’informations génétiques, moléculaires, génomiques et sur le développement de la drosophile. Début 2018,  » FlyBase 2.0  » a été publié avec une interface utilisateur considérablement améliorée et de nouveaux outils. Parmi ces changements importants, citons une nouvelle organisation des résultats de recherche en listes ou tableaux interactifs (hitlists), des listes de référence améliorées et de nouveaux graphiques de domaines protéiques. Une nouvelle classe de données importante appelée « outils expérimentaux » regroupe les informations sur les souches de mouches utiles et d’autres ressources liées à un gène spécifique, ce qui améliore considérablement la capacité du chercheur en drosophile à concevoir et à réaliser des expériences. Avec la sortie de FlyBase 2.0, il y a également eu une restructuration de l’architecture dorsale et un développement continu des interfaces de programmation d’applications (API) pour l’accès programmatique aux données de FlyBase. Dans cette revue, nous décrivons ces nouvelles caractéristiques et fonctionnalités majeures du site FlyBase 2.0 et comment elles soutiennent l’utilisation de la drosophile comme organisme modèle pour la découverte biologique et la recherche translationnelle.

INTRODUCTION

FlyBase (flybase.org) est le principal dépôt et portail web pour les données génétiques liées à Drosophila melanogaster, la mouche des fruits. Le consortium FlyBase est une équipe de conservateurs, de développeurs et d’éducateurs sur quatre sites : l’université de Harvard, l’université de Cambridge, l’université de l’Indiana et l’université du Nouveau-Mexique. FlyBase contient des données extraites de la littérature scientifique primaire couvrant plus d’un siècle de recherche en génétique. Au fil des ans, le consortium a développé de nouveaux formats d’affichage des données et de nouveaux outils bioinformatiques pour exploiter ces données à des fins de découverte biologique et de recherche translationnelle. Ces efforts ont transformé FlyBase d’une simple base de données en une puissante base de connaissances.

Le site FlyBase a subi des changements majeurs depuis notre dernier examen il y a deux ans (1). En février 2017, nous avons publié une version bêta du site web de nouvelle génération, que nous avons baptisé  » FlyBase 2.0 « . Après une période de commentaires du public et de polissage, FlyBase 2.0 a remplacé le site web précédent en décembre 2017. Dans cette revue, nous allons discuter de ce qui est différent et meilleur sur ce site web de nouvelle génération, et de ce que vous pouvez attendre d’une visite sur le nouveau et amélioré FlyBase 2.0, maintenant et à l’avenir. Bien que nous nous concentrions sur les nouvelles données et les nouveaux outils dans cette revue, l’interface utilisateur (IU) de FlyBase 2.0 a subi quelques changements importants. Nous renvoyons le lecteur intéressé à l’examen précédent de la NAR en 2017 pour une discussion approfondie des autres aspects de FlyBase (1).

QuickSearch ET HITLISTS

Les statistiques d’utilisation indiquent que la plupart des utilisateurs interrogent FlyBase par le biais de  » QuickSearch  » sur la page d’accueil. En août 2017, FlyBase a ajouté l’onglet ‘GAL4 etc’ à ‘QuickSearch’. Cette recherche répond à un besoin de longue date d’un moyen gérable de rechercher dans FlyBase des GAL4 et d’autres pilotes binaires, ainsi que des rapporteurs lacZ et GFP, en utilisant différents types de modèles d’expression. La recherche renvoie les allèles, les constructions, les insertions et les stocks disponibles, et comporte une option permettant d’afficher les résultats dans des groupes associés (Figure 1). Elle signale également certains des pilotes GAL4 les plus populaires, en fonction des informations sur les commandes de stock fournies par le BDSC, et du nombre de fois où ils sont référencés dans les publications (2). L’onglet ‘GAL4 etc’ comprend également un lien vers une liste complète de ces pilotes GAL4 ‘fréquemment utilisés’.

Figure 1.

Résultat de la recherche GAL4. Un tableau de résultats pour une recherche utilisant l’onglet QuickSearch ‘GAL4 etc’, avec l’option de sortie ‘tableau intégré’ sélectionnée. Les références croisées sont utilisées pour regrouper les allèles, constructions, insertions et stocks associés. Deux pilotes GAL4 ‘fréquemment utilisés’ sont signalés.

Figure 1.

Résultat de la recherche GAL4. Un tableau de résultats pour une recherche utilisant l’onglet QuickSearch ‘GAL4 etc’, avec l’option de sortie ‘tableau intégré’ sélectionnée. Les références croisées sont utilisées pour regrouper les allèles, constructions, insertions et stocks associés. Deux pilotes GAL4 ‘fréquemment utilisés’ sont signalés.

Bien que QuickSearch dispose de plusieurs onglets pour des recherches spécifiques, la plupart des gens utilisent l’onglet générique ‘Search FlyBase’. Compte tenu de l’importance de ce point d’entrée, nous avons consacré une grande partie de nos efforts à modifier et à améliorer fondamentalement les  » listes de résultats  » renvoyées par cette recherche pour FlyBase 2.0, en tirant pleinement parti de la nouvelle architecture du site (Figure 2). Les améliorations de l’interface utilisateur de la page de résultats de la liste de résultats comprennent une mise en page  » responsive  » pour la visualisation sur de petits écrans (par exemple, les smartphones), la pagination pour réduire les temps de chargement, et un nouveau formulaire de recherche intégré.

Figure 2.

Liste de résultats de recherche. La page de résultat de la recherche FlyBase en utilisant ‘Mad’ comme terme de recherche. Une  » hitlist  » est affichée, contenant des gènes, des stocks, des allèles et de nombreuses autres classes d’éléments de données FlyBase (certaines ne sont pas représentées). Le bouton de rapport sur les gènes Mad est marqué d’un drapeau bleu, indiquant les nouvelles annotations dans la version actuelle ; en passant la souris sur le drapeau, on obtient un résumé. La liste est encadrée par un ensemble d’outils permettant de filtrer par classe de données et par espèce, de paginer, de visualiser et d’analyser.

Figure 2.

Liste de résultats de recherche. La page de résultat de la recherche FlyBase en utilisant ‘Mad’ comme terme de recherche. Une  » hitlist  » est affichée, contenant des gènes, des stocks, des allèles et de nombreuses autres classes d’éléments de données FlyBase (certaines ne sont pas représentées). Le bouton de rapport sur les gènes Mad est marqué d’un drapeau bleu, indiquant les nouvelles annotations dans la version actuelle ; en passant la souris sur le drapeau, on obtient un résumé. La liste est encadrée par un ensemble d’outils pour le filtrage par classe de données et par espèce, la pagination, la visualisation et l’analyse.

Une caractéristique importante de la nouvelle liste de résultats est qu’elle est  » mixte « , c’est-à-dire qu’elle contient toutes les classes de données FlyBase correspondant au terme de recherche. Chaque élément correspondant se trouve dans un panneau, contenant une sélection concise d’informations importantes (Figure 2). Les badges à code couleur situés le long de la marge de droite permettent un balayage rapide des éléments par classe de données (Figure 2). Un drapeau bleu indique que de nouvelles données ont été jointes à un élément dans la version la plus récente de FlyBase (Figure 2). Les boutons renvoient à des rapports FlyBase, à des navigateurs de génome ou à de nouvelles listes d’éléments connexes, par exemple, un panneau pour un gène donné contiendra des boutons pour les allèles, les stocks, les transcriptions, les polypeptides et les références associés (Figure 2). Chaque panneau de classe de données contient également des informations spécifiques à la classe ; par exemple, un panneau d’allèle affichera le mutagène utilisé pour générer l’allèle, toute insertion associée et le nombre d’énoncés de phénotypes attachés à l’allèle.

La liste de résultats mixtes peut être filtrée par espèce ou par classe de données (Figure 2). Le filtre par espèce vous permet de choisir d’inclure/exclure les transgènes humains dans les mouches, ainsi que les résultats non-mélanogaster ou non-drosophile. Les filtres de classe de données peuvent être configurés pour afficher une liste de résultats plus restreinte, composée de quelques classes de données intéressantes ou d’une seule classe de données. Le fait de limiter les résultats de la recherche à une seule classe de données permet de débloquer des outils et des options d’affichage pour une seule classe. Notez que la plupart des onglets de l’outil QuickSearch génèrent directement des listes d’occurrences à classe de données unique.

Lorsque la liste d’occurrences est filtrée sur une classe de données unique, une option de vue ‘Tableau’ devient disponible. La vue Tableau est un affichage tabulaire compact verticalement, avec des colonnes triables appropriées à cette classe (Figure 3). Un ensemble d’outils d’analyse devient disponible lorsqu’une liste de résultats comprend une seule classe de données. Ces outils apparaissent en haut de la page de la liste de résultats sous la forme d’une rangée de boutons intitulés « Convertir », « Exporter » et « Analyser » (Figure 3). Le bouton Convertir est alimenté par les nombreuses références croisées entre les classes de données, ce qui vous permet, par exemple, de transformer une liste de gènes en une liste de références connexes, ou une liste d’allèles en une liste d’insertions associées. Le bouton Exporter permet de transférer la liste de résultats actuelle vers l’un des nombreux outils FlyBase, tels que Batch Download ou Feature Mapper. C’est également le meilleur moyen de télécharger une liste de résultats sous forme d’un ensemble d’identifiants FlyBase. Le bouton Analyze peut générer plusieurs types de rapports courts résumant la liste de résultats, tels que les fréquences des termes anatomiques ou des classes phénotypiques pour une liste de résultats d’allèles, ou peut diriger la liste de résultats vers l’outil Interactions Browser. Avec ces améliorations, la liste de résultats est devenue un outil puissant pour examiner, affiner et analyser les résultats de recherche de FlyBase.

Figure 3.

Vue en tableau de la liste de résultats de recherche. La page de résultats de recherche ‘Mad’, filtrée sur la classe de données Allèle et basculée en vue tableau. Le menu de l’outil d’exportation a été étendu.

Figure 3.

Vue en tableau de la liste de résultats de recherche. La page de résultats de recherche ‘Mad’, filtrée sur la classe de données Allèle et basculée en vue tableau. Le menu de l’outil d’exportation a été étendu.

AMÉLIORATIONS DES RAPPORTS

Il y a eu plusieurs changements notables dans les rapports FlyBase qui améliorent la convivialité et l’affichage des données. Par exemple, tous les rapports comprennent désormais un panneau de navigation sur le côté droit de la page (Figure 4). Ce panneau contient des liens vers toutes les sections de haut niveau du rapport et peut être utilisé pour passer rapidement aux sections qui vous intéressent. La section ‘Références’ de tous les rapports a été améliorée pour faciliter le filtrage et le tri des listes de publications (voir la section ‘Références interactives et résumés graphiques’ ci-dessous pour plus d’informations).

Figure 4.

FlyBase Gene Report. Rapport sur les gènes FlyBase pour le gène Cdk1. La section ‘Informations générales’ sert de ‘super-résumé’ des informations sur le gène. Le menu ‘Sections du rapport’ à droite flotte au fur et à mesure que l’utilisateur fait défiler le rapport, fournissant ainsi un outil de navigation facile. La section Emplacement génomique comprend des liens externes vers des navigateurs de génome au NCBI, Ensembl, UCSC et PopFly.

Figure 4.

FlyBase Gene Report. Rapport sur les gènes de FlyBase pour le gène Cdk1. La section ‘Informations générales’ sert de ‘super-résumé’ des informations sur le gène. Le menu ‘Sections du rapport’ à droite flotte au fur et à mesure que l’utilisateur fait défiler le rapport, fournissant ainsi un outil de navigation facile. La section Emplacement génomique comprend des liens externes vers des navigateurs de génome au NCBI, Ensembl, UCSC et PopFly.

Les informations fonctionnelles sommaires pour les gènes sont importantes pour les utilisateurs de notre site, en particulier ceux impliqués dans la recherche translationnelle. Au cours des dernières années, la section supérieure  » Informations générales  » des rapports sur les gènes de FlyBase a évolué en un  » super-résumé « , comprenant une grande variété de données de synthèse sur les gènes (Figure 4). Dans FlyBase 2.0, cela inclut un Gene Snapshot, un résumé généré automatiquement, la description du groupe de gènes auquel le gène appartient (3), les données de fonction UniProt, les informations historiques du Red Book (4), et un résumé de Interactive Fly (http://www.sdbonline.org/fly/aimain/1aahome.htm), lorsque ceux-ci sont disponibles. Les instantanés de gènes sont des résumés écrits à la main qui sont sollicités par des chercheurs ayant une expertise sur ce gène, et fournissent un aperçu rapide de ce qui est connu sur la fonction de ce gène (1).

Un autre résumé utile dans les rapports de gènes de FlyBase 2.0 est le  » ruban de résumé GO  » (Figure 5). Ces rubans ont été précédemment mis en œuvre à la base de données du génome de la souris (MGD) (5), et affichent graphiquement une distillation de haut niveau des termes de la Gene Ontology (GO) (6). Ce ruban utilise la structure hiérarchique de l’ontologie pour condenser la curation GO en quelques dizaines de termes de haut niveau, qui sont ensuite affichés avec des puces de couleur indiquant le nombre d’annotations. Des termes plus spécifiques sont affichés sous forme de fenêtre contextuelle en passant la souris sur une cellule individuelle, ou peuvent être visualisés sous forme de tableau dans la section Gene Ontology du rapport. Le ruban GO améliore considérablement la capacité du chercheur à évaluer rapidement ce qui est connu sur la fonction d’un gène.

Figure 5.

Ruban de résumé GO. Ruban de résumé GO pour le gène Cdk1 de D. melanogaster, tel qu’intégré dans un rapport sur les gènes de FlyBase.

Figure 5.

Ruban de résumé GO. Ruban de résumé GO pour le gène Cdk1 de D. melanogaster, tel qu’il est intégré dans un rapport sur les gènes de FlyBase.

Les rapports sur les gènes de FlyBase 2.0 comprennent maintenant des graphiques de domaines protéiques provenant de deux sources de données InterPro, Pfam et SMART, lorsqu’ils sont disponibles (7,8). Les rapports sur les polypeptides affichent des informations sur les domaines pour l’isoforme spécifique tandis que les rapports sur les gènes affichent l’isoforme la plus longue. Des fenêtres contextuelles et des tableaux affichent des données plus détaillées sur les domaines et fournissent des liens vers les rapports InterPro. Ces affichages complètent les pistes dans les navigateurs de génome montrant ces mêmes données alignées sur des modèles de gènes (voir ci-dessous).

OUTILS EXPERIMENTAUX

Une fonction indispensable de FlyBase est d’être une source d’informations sur les souches de mouches et les réactifs pour concevoir des expériences. L’importance de cette fonction a été soulignée par une enquête FlyBase de 2012, où ∼90 % des répondants ont déclaré qu’ils trouvaient FlyBase  » très utile  » ou qu’ils  » ne pourraient pas le faire sans FlyBase. À cette fin, nous avons créé une nouvelle classe de données  » outil expérimental « . Les rapports décrivent les outils utilisés pour la détection des produits génétiques (par exemple, le tag FLAG, EGFP), le ciblage subcellulaire (par exemple, le signal de localisation nucléaire, la séquence signal), l’expression dans un système binaire (par exemple, UAS, GAL4), ou l’expression clonale/conditionnelle (par exemple, FLP, FRT). Chaque rapport sur les outils expérimentaux fournit une description de l’outil et de ses utilisations, ainsi que des tableaux consultables de constructions transgéniques connexes. Ces tableaux répertorient les composants des constructions (par exemple, la région régulatrice, le produit codé), les allèles transgéniques et les constructions, tous liés aux stocks afin que les chercheurs puissent facilement identifier les souches de mouches utiles. Pour trouver plus facilement ces outils, ils sont également affichés sur les rapports d’allèles et de constructions pertinents, et la nouvelle classe de données d’outils expérimentaux a été ajoutée aux listes de résultats interactives. Cette nouvelle classe de données d’outils expérimentaux renforce encore FlyBase en tant que ressource importante pour la recherche sur la drosophile.

MULTI-SPECIES MINING AND TRANSLATIONAL RESEARCH

Pendant un certain nombre d’années, FlyBase a hébergé des données et développé des outils pour identifier les orthologues des gènes de mouche dans de multiples organismes. Cela a inclus les données d’orthologie d’OrthoDB (https://www.orthodb.org/, PMID:27899580) (9) et la méta-analyse de DIOPT (https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) (10). Les appels d’orthologie d’OrthoDB dans FlyBase ont été mis à jour en 2017, et incluent maintenant de nombreuses espèces de drosophiles, d’autres insectes et de nombreuses autres espèces. En plus des liens vers le gène orthologue, les rapports de gènes comprennent maintenant des liens vers les groupes OrthoDB, ce qui permet à l’utilisateur d’identifier les orthologues dans un maximum de 5000 espèces.

DIOPT est une méta-analyse de nombreux algorithmes de prédiction d’orthologie différents (y compris OrthoDB), récemment mise à jour en 2018 pour inclure Arabidopsis thaliana et trois nouveaux algorithmes de prédiction. Dans FlyBase Gene Reports, les appels d’orthologie DIOPT et OrthoDB entre Drosophila melanogaster et un noyau d’autres espèces d’organismes modèles sont agrégés dans un affichage compact pour produire un résumé informatif. Cette section affiche également des liens vers l’alignement de la protéine avec l’orthologue prédit, et indique si l’orthologue humain, lorsqu’il est transféré dans la drosophile, complète fonctionnellement le mutant de la mouche.

FlyBase 2.0 a collaboré avec les groupes de Norbert Perrimon et Hugo Bellen pour développer de nouveaux outils en ligne qui permettent de rechercher la fonction des gènes orthologues (Gene2Function;http://gene2function.org) (11), la conservation des sites de phosphorylation et d’autres modifications post-traductionnelles des protéines (https://www.flyrnai.org/tools/iproteindb/web/) (bioRxiv https://doi.org/10.1101/310854), les interactions entre gènes dans les organismes (MIST;http://fgrtools.hms.harvard.edu/mist) (12), et un outil de recherche qui renvoie diverses informations sur les orthologues, la génétique humaine et les maladies (MARRVEL;http://marrvel.org) (13). Ces liens et d’autres liens utiles vers des ressources externes sont présentés sous forme d’icônes dans la barre latérale de la page d’accueil de FlyBase. Ce ne sont que quelques exemples de la façon dont FlyBase continue de collaborer avec des tiers pour développer de nouveaux outils et soutenir les découvertes fondamentales et la recherche translationnelle de la communauté drosophile.

Au cours des dernières années, le Consortium FlyBase a augmenté sa participation à l’Alliance des ressources génomiques (The Alliance;https://alliancegenome.org) (14). L’Alliance est une collaboration visant à consolider et à homogénéiser la présentation des données de différents organismes modèles, et à les intégrer à celles des humains, afin d’accélérer la découverte biologique et la recherche translationnelle. L’Alliance représente actuellement la collaboration de six bases de données d’organismes modèles (Saccharomyces Genome Database, WormBase, FlyBase, Zebrafish Information Network, Mouse Genome Database, Rat Genome Database) et le projet Gene Ontology (GO). Les activités de l’Alliance s’inscrivent dans le cadre du programme « Big Data to Knowledge » (https://commonfund.nih.gov/bd2k) du NIH Common Fund, dont un objectif important est le développement d’un « Data Commons » (https://commonfund.nih.gov/commons). Ce Data Commons sera le référentiel des big data générées par les recherches financées par le NIH, avec des API appropriées qui garantissent qu’elles sont accessibles à tous dans un format trouvable, accessible, interopérable et réutilisable (FAIR). Au cours des deux dernières années, FlyBase a fourni de grands ensembles de données au Data Commons et a développé des API pour faciliter leur utilisation. La phase pilote de Data Commons fait partie du plan stratégique des NIH pour la science des donnéeshttps://www.nih.gov/news-events/news-releases/nih-releases-strategic-plan-data-science pour développer de nouvelles méthodes de stockage, de partage et d’analyse des ensembles de données dérivés des NIH dans l’environnement en nuage. Pour plus d’informations sur ces programmes, l’Alliance et le rôle de FlyBase dans ces programmes, nous renvoyons le lecteur à un examen complet récent (14).

REFÉRENCES INTERACTIVES ET ABSTRATS GRAPHIQUES

Presque toutes les pages de rapport de FlyBase ont une section ‘Références’ qui contient une liste de publications associées à l’entité donnée (gène, allèle, insertion, etc.). Cette section a été améliorée dans FlyBase 2.0 avec une barre latérale interactive qui permet à l’utilisateur de filtrer par type de publication, par exemple ‘article de recherche’ ou ‘revue’ (Figure 6). Les utilisateurs peuvent également trier par année ou par auteur, effectuer des recherches par texte et exporter les listes de publications éditées vers le téléchargement par lots, sous forme de HitList ou de citations RIS pour leur gestionnaire de références préféré. Pour le rapport sur les gènes, l’un des défis croissants est de distinguer les articles qui se concentrent sur un gène de ceux qui n’y font qu’une référence mineure, par exemple comme un point de données dans une analyse de l’ensemble du génome. Pour aider l’utilisateur à identifier les articles les plus pertinents pour ce gène, nous avons introduit une section « publication représentative ». Cette catégorie contient jusqu’à 25 articles que FlyBase a identifiés comme étant les plus informatifs en ce qui concerne l’identification et la fonction d’un gène particulier. Pour identifier ces publications représentatives, nous avons développé un algorithme qui classe les articles par pertinence, sur la base de la quantité et de la nature des données conservées pour le gène donné, en donnant la priorité aux articles qui mentionnent le gène dans le titre ou le résumé. La capacité d’identifier les articles les plus informatifs parmi les centaines qui mentionnent un gène, ainsi que les autres capacités de tri de la section des références, commence à aborder le problème de la prise en charge de la littérature biologique en croissance rapide.

Figure 6.

Section des références interactive. Section des références avec options de filtrage par types de publications (barre latérale gauche), y compris les publications représentatives, et diverses options de tri, de recherche et d’exportation.

Figure 6.

Section des références interactive. Section des références avec des options de filtrage par types de publications (barre latérale gauche), y compris les publications représentatives, et diverses options de tri, de recherche et d’exportation.

Une autre façon pour FlyBase d’aider les utilisateurs à trouver la littérature pertinente est l’inclusion de « résumés graphiques » – des images qui résument les résultats d’un article, introduites pour la première fois par Cell Press il y a un certain nombre d’années. FlyBase a conclu un accord avec Cell Press pour afficher les résumés graphiques dans le rapport de référence correspondant. Des vignettes de ces résumés graphiques sont également incluses dans les panneaux des éléments de la liste des occurrences de référence, lorsqu’elles sont disponibles. Un clic sur le résumé graphique dirige l’utilisateur vers le résumé et l’article chez Cell Press.

Nouvelles pistes du navigateur de génome et migration de GBrowse à JBrowse

Pendant un certain nombre d’années, le navigateur de génome GBrowse dans FlyBase a affiché des modèles de gènes annotés et de nombreuses autres caractéristiques cartographiées du génome et de l’épigénome, toutes présentées sous forme de « pistes » distinctes (15) Les pistes uniques à FlyBase comprennent des graphiques de signaux d’ARN-Seq provenant de différents projets au cours du développement ou en réponse à des stimuli environnementaux et des domaines de protéines alignés sur la souche de référence du génome de D. melanogaster (1). Les informations sur les domaines protéiques ont été améliorées avec une nouvelle piste qui montre les domaines prédits par SMART, complétant la piste « Pfam » précédemment mise en œuvre, et fournissant une deuxième vue indépendante des domaines protéiques codés par un gène et de leur répartition entre les exons (7,8). Les rapports sur les gènes et les polypeptides contiennent également des schémas de ces domaines (voir Améliorations des rapports, ci-dessus).

Bien que GBrowse ait été la plateforme de navigation génomique de FlyBase pendant de nombreuses années, avec FlyBase 2.0 nous avons commencé à migrer les pistes génomiques vers un navigateur génomique de nouvelle génération appelé JBrowse (16). JBrowse possède un certain nombre de caractéristiques uniques qui améliorent la facilité et la fonctionnalité de la navigation dans le génome, comme une vitesse et une réactivité accrues, des pistes configurables, la sélection de pistes sur le même écran et la navigation par cliquer-glisser. La plupart des pages contenant des liens vers un navigateur de génome dans FlyBase 2.0 permettent actuellement aux utilisateurs de choisir entre GBrowse et JBrowse. Une fois notre migration vers JBrowse terminée, GBrowse sera déprécié mais restera accessible pendant un an, après quoi JBrowse sera le seul navigateur génomique hébergé par FlyBase. En plus des navigateurs de génome sur FlyBase, nous avons récemment ajouté des liens dans la section « autres vues de génome » du rapport sur les gènes vers les navigateurs du NCBI, d’Ensembl, d’UCSC et de PopFly, qui ont des annotations et des fonctionnalités différentes (Figure 4). Par exemple, le navigateur PopFly présente les polymorphismes de l’ADN identifiés dans les populations naturelles de D. melanogaster. FlyBase évalue continuellement de nouveaux ensembles de données communautaires à inclure dans nos navigateurs génomiques. Les plans actuels comprennent des améliorations de l’annotation du protéome du développement et l’ajout d’emplacements de sites cibles gRNA efficaces pour l’ingénierie CRISPR qui ont été prédits par le Drsosophila RNAi Screening Center (DRSC) (https://fgr.hms.harvard.edu/) (17).

NOUVELLES OUTILS POUR LES UTILISATEURS DE PUISSANCE

La construction de FlyBase 2.0 a entraîné un changement significatif de l’architecture dorsale qui a permis de nouvelles capacités pour les « utilisateurs de puissance ». Nous avons amélioré la compatibilité avec le cloud, ajouté une interface de programmation d’applications (API) (https://flybase.github.io/), et réorganisé fondamentalement le code pour avoir une structure plus modulaire. Nous continuons à soutenir une base de données Chado accessible au public (https://flybase.github.io/) et les téléchargements de fichiers XML, FASTA, GFF, GTF et d’autres fichiers de données en vrac via notre site FTP (ftp://ftp.flybase.org/).

CONNECTIONS AVEC LA COMMUNAUTÉ

FlyBase bénéficie grandement d’une communauté d’utilisateurs bien engagée. Depuis 2014, le groupe consultatif communautaire de FlyBase (FCAG), un groupe de plus de 500 chercheurs du monde entier qui s’engagent à améliorer FlyBase, a répondu à des enquêtes régulières avec des informations précieuses sur la façon dont les chercheurs utilisent réellement FlyBase, et des suggestions de nouvelles capacités. Ce retour d’information continue de façonner la manière dont FlyBase s’adapte aux nouvelles données et aux besoins des utilisateurs. Notre objectif est d’avoir un représentant au sein du FCAG de chaque laboratoire de drosophile ; les nouveaux représentants peuvent s’inscrire en suivant le lien FlyBase Community Advisory Group sous le menu Communauté de FlyBase (http://flybase.org/wiki/FlyBase:Community_Advisory_Group). Un autre effort continu est la production de tutoriels vidéo, qui s’est accélérée au cours des deux dernières années avec huit nouvelles vidéos postées sur notre chaîne YouTube (https://www.youtube.com/c/FlyBaseTV), couvrant diverses techniques de recherche, les nouvelles fonctionnalités du site web FlyBase 2.0, et JBrowse. Le nouveau site Web affiche également le flux Twitter de FlyBase (https://twitter.com/FlyBaseDotOrg) sur la barre latérale gauche de la page d’accueil, que nous utilisons pour alerter les utilisateurs des nouvelles données et fonctionnalités et des nouvelles d’actualité pertinentes pour la communauté des mouches.

PERSPECTIVES D’AVENIR

Un défi futur sera de suivre la croissance accélérée de l’information biologique, y compris la quantité toujours croissante de big data provenant de nouvelles méthodes à haut débit. Parmi ces nouvelles méthodes figure le séquençage de l’ARN d’une seule cellule (RNA-Seq), qui produit des volumes d’informations temporelles et spatiales à grain fin sur l’expression des gènes. Pour réaliser le plein potentiel de cette méthode, il sera impératif de développer de nouvelles approches pour intégrer et afficher la grande quantité de données dans un format interactif à la fois utile et facile. FlyBase continuera à intégrer les données du protéome du développement au fur et à mesure qu’elles seront disponibles, et à les intégrer aux données RNA-Seq via des affichages graphiques et JBrowse afin de produire un outil puissant pour la génomique fonctionnelle. Le développement futur de nouveaux affichages interactifs pour les voies et les interactions entre ces produits génétiques renforcera l’approche systémique de la compréhension des réseaux cellulaires. Nous envisageons également l’intégration d’autres classes de données fondamentalement nouvelles. Parmi celles-ci figurent les voies métaboliques de la drosophile et le microbiome, la population de micro-organismes dans et sur la mouche. Étant donné que la construction de FlyBase et d’autres MOD a été centrée sur les gènes, l’intégration de ces données présentera de nouveaux défis et nécessitera des collaborations et des liens avec des tiers. Bien entendu, relever tous ces défis liés à l’accroissement des informations biologiques dépendra de la disponibilité de ressources suffisantes.

FlyBase continuera également à être un membre actif de l’Alliance des ressources génomiques (The Alliance ; https://alliancegenome.org) (14). Cela comprendra des efforts pour homogénéiser les données et développer de nouveaux affichages et outils pour la recherche fondamentale et translationnelle. Une partie de ces efforts consistera à créer de nouvelles API permettant aux utilisateurs expérimentés de récupérer et de travailler avec des ensembles de données volumineux déposés dans le NIH Data Commons. Ce seront des efforts futurs importants, car le torrent de big data et l’importance de la bioinformatique pour la recherche biomédicale continuent d’augmenter.

Au cours des 27 dernières années, FlyBase a évolué d’une simple base de données à une puissante base de connaissances. En plus de son rôle essentiel de conservation et de diffusion des données sur les mouches, FlyBase continue de développer de nouveaux outils pour la découverte de la fonction des gènes à travers les organismes et leurs liens avec les maladies humaines (18). FlyBase reste essentiel pour prendre en charge les nombreux types de données spécifiques à la communauté de recherche sur les mouches, afin que le plein potentiel de la drosophile pour la découverte biologique et la recherche translationnelle puisse être réalisé (19). Continuer à développer la base de connaissances FlyBase 2.0 permettra à la communauté de la drosophile d’explorer de nouvelles idées, de rechercher de nouveaux aspects de la vie et d’aller audacieusement là où personne n’est allé auparavant.

ACKNOWLEDGEMENTS

Nous tenons à remercier les autres PI, conservateurs et développeurs de FlyBase pour leurs commentaires sur le manuscrit. Nous remercions tout particulièrement Julie Agapite et Victoria Jenkins pour leurs importantes contributions éditoriales. Au moment de la rédaction du présent document, les membres du Consortium FlyBase étaient les suivants : Norbert Perrimon, Susan Russo Gelbart, Julie Agapite, Kris Broll, Lynn Crosby, Gilberto dos Santos, David Emmert, L. Sian Gramates, Kathleen Falls, Victoria Jenkins, Beverley Matthews, Carol Sutherland, Christopher Tabone, Pinglei Zhou, Mark Zytkovicz, Nick Brown, Giulia Antonazzo, Helen Attrill, Phani Garapati, Alex Holmes, Aoife Larkin, Steven Marygold, Gillian Millburn, Clare Pilgrim, Vitor Trovisco, Pepe Urbano, Thomas Kaufman, Brian Calvi, Bryon Czoch, Josh Goodman, Victor Strelets, Jim Thurmond, Richard Cripps, Phillip Baker.

FUNDING

FlyBase est financé par NIH, NHGRI ; UK Medical Research Council . Financement de la charge d’accès libre : NIH, NHGRI .

Déclaration de conflit d’intérêts. Aucun déclaré.

Gramates
L.S.

,

Marygold
S.J.

,

Santos
G.D.

,

Urbano
J.M.

,

Antonazzo
G.

,

Matthews
B.B.

,

Rey
A.J.

,

Tabone
C.J.

,

Crosby
M.A.

,

Emmert
D.B.

et al.

FlyBase at 25 : looking to the future

.

Nucleic Acids Res.
2017

;

45

:

D663

D671

.

Cook
K.R.

,

Parks
A.L.

,

Jacobus
L.M.

,

Kaufman
T.C.

,

Matthews
K.A.
Nouvelles ressources de recherche au centre de stock de drosophiles de Bloomington

.

Fly

.

2010

;

4

:

88

91

.

Attrill
H.

,

Chutes
K.

,

Goodman
J.L.

,

Millburn
G.H.

,

Antonazzo
G.

,

Rey
A.J.

,

S.J.
Marygold.
FlyBase Consortium
FlyBase : établissement d’une ressource de groupe de gènes pour Drosophila melanogaster

.

Nucleic Acids Res.
2016

;

44

:

D786

D792

.

Lindsley
D.L.

,

Zimm
G.G.
Le génome de Drosophila Melanogaster

.

1992

;

San Diego

:

Academic Press

.

Smith
C.L.

,

Blake
J.A.

,

Kadin
J.A.

,

Richardson
J.E.

,

Bult
C.J.
Base de données du génome de la souris, G.
Base de données du génome de la souris (MGD)-2018 : base de connaissances sur la souris de laboratoire

.

Nucleic Acids Res.
2018

;

46

:

D836

D842

.

Le Consortium d’ontologie génétique
Expansion de la base de connaissances et des ressources de l’ontologie génétique

.

Nucleic Acids Res.
2017

;

45

:

D331

D338

.

Finn
R.D.

,

Coggill
P.

,

Eberhardt
R.Y.

,

Eddy
S.R.

,

Mistry
J.

,

Mitchell
A.L.

,

Potter
S.C.

,

Punta
M.

,

Qureshi
M.

,

Sangrador-Vegas
A.

et al.

La base de données Pfam sur les familles de protéines : vers un avenir plus durable

.

Nucleic Acids Res.
2016

;

44

:

D279

D285

.

Letunic
I.

,

Bork
P.
20 ans de la ressource d’annotation de domaines protéiques SMART

.

Nucleic Acids Res.
2018

;

46

:

D493

D496

.

Zdobnov
E.M.

,

Tegenfeldt
F.

,

Kuznetsov
D.

,

Waterhouse
R.M.

,

Simao
F.A.

,

Ioannidis
P.

,

Seppey
M.

,

Loetscher
A.

,

Kriventseva
E.V.
OrthoDB v9.1 : catalogage des annotations évolutives et fonctionnelles des orthologues

animaux, fongiques, végétaux, archéaux, bactériens et viraux.

Nucleic Acids Res.
2017

;

45

:

D744

D749

.

Hu
Y.

,

Flockhart
I.

,

Vinayagam
A.

,

Bergwitz
C.

,

Berger
B.

,

Perrimon
N.

,

Mohr
S.E.
Une approche intégrative de la prédiction des orthologues pour les études axées sur les maladies et autres études fonctionnelles

.

BMC Bioinformatics

.

2011

;

12

:

357

.

Hu
Y.

,

Comjean
A.

,

Mohr
S.E.

,

FlyBase
C.

,

Perrimon
N.
Gene2Function : Une ressource en ligne intégrée pour la découverte de fonctions génétiques

.

2017

;

7

:

2855

2858

.

Hu
Y.

,

Vinayagam
A.

,

Nand
A.

,

Comjean
A.

,

Chung
V.

,

Hao
T.

,

Mohr
S.E.

,

Perrimon
N.
Molecular Interaction Search Tool (MIST) : une ressource intégrée pour l’exploration des données d’interactions entre gènes et protéines

.

Nucleic Acids Res.
2018

;

46

:

D567

D574

.

Wang
J.

,

Al-Ouran
R.

,

Hu
Y.

,

Kim
S.Y.

,

Wan
Y.W.

,

Wangler
M.F.

,

Yamamoto
S.

,

Chao
H.T.

,

Comjean
A.

,

Mohr
S.E.

et al.

MARRVEL : Intégration des ressources génétiques humaines et d’organismes modèles pour faciliter l’annotation fonctionnelle du génome humain

.

Am. J. Hum. Genet.
2017

;

100

:

843

853

.

Howe
D.G.

,

Blake
J.A.

,

Bradford
Y.M.

,

Bult
C.J.

,

Calvi
B.R.

,

Engel
S.R.

,

Kadin
J.A.

,

Kaufman
T.C.

,

Kishore
R.

,

Laulederkind
S.J.F.

et al.

Model organism data evolving in support of translational medicine

.

Lab. Anim. (NY)

.

2018

;

47

:

277

289

.

Stein
L.D.
Utilisation de GBrowse 2.0 pour visualiser et partager les données de séquences de nouvelle génération

.

Brief. Bioinform.
2013

;

14

:

162

171

.

Buels
R.

,

Yao
E.

,

Diesh
C.M.

,

Hayes
R.D.

,

Munoz-Torres
M.

,

Helt
G.

,

Goodstein
D.M.

,

Elsik
C.G.

,

Lewis
S.E.

,

Stein
L.

et al.

JBrowse : une plateforme web dynamique pour la visualisation et l’analyse du génome

.

Genome Biol.
2016

;

17

:

66

.

Mohr
S.E.

,

Hu
Y.

,

Ewen-Campen
B.

,

Housden
B.E.

,

Viswanatha
R.

,

Perrimon
N.
Création d’ARN guidesCRISPR pour les applications de recherche

.

FEBS J.
2016

;

283

:

3232

3238

.

Wangler
M.F.

,

Yamoto
S.

,

Bellen
H.J.
Les mouches à fruits dans la recherche biomédicale

.

Genetics

.

2015

;

199

:

639

653

.

Bilder
D.

,

Irvine
K.D.
Faire le point sur l’écosystème de recherche sur la drosophile

.

Genetics

.

2017

;

206

:

1227

1236

.

Notes de l’auteur

Les membres du Consortium FlyBase sont énumérés dans les Remerciements.

© The Author(s) 2018. Publié par Oxford University Press au nom de Nucleic Acids Research.
Il s’agit d’un article en accès libre distribué selon les termes de la licence Creative Commons Attribution (http://creativecommons.org/licenses/by/4.0/), qui permet la réutilisation, la distribution et la reproduction sans restriction sur n’importe quel support, à condition que l’œuvre originale soit correctement citée.

.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.