FlyBase 2.0 : la prochaine génération

Abstract
INTRODUCTION
QuickSearch ET HITLISTS
AMÉLIORATIONS DES RAPPORTS
OUTILS EXPERIMENTAUX
MULTI-SPECIES MINING AND TRANSLATIONAL RESEARCH
REFÉRENCES INTERACTIVES ET ABSTRATS GRAPHIQUES
Nouvelles pistes du navigateur de génome et migration de GBrowse à JBrowse
NOUVELLES OUTILS POUR LES UTILISATEURS DE PUISSANCE
CONNECTIONS AVEC LA COMMUNAUTÉ
PERSPECTIVES D’AVENIR
ACKNOWLEDGEMENTS
FUNDING
Notes de l’auteur

Abstract

FlyBase (flybase.org) est une base de connaissances qui soutient la communauté des chercheurs qui utilisent la mouche des fruits, Drosophila melanogaster, comme organisme modèle. L’équipe de FlyBase conserve et organise un éventail diversifié d’informations génétiques, moléculaires, génomiques et sur le développement de la drosophile. Début 2018, » FlyBase 2.0 » a été publié avec une interface utilisateur considérablement améliorée et de nouveaux outils. Parmi ces changements importants, citons une nouvelle organisation des résultats de recherche en listes ou tableaux interactifs (hitlists), des listes de référence améliorées et de nouveaux graphiques de domaines protéiques. Une nouvelle classe de données importante appelée « outils expérimentaux » regroupe les informations sur les souches de mouches utiles et d’autres ressources liées à un gène spécifique, ce qui améliore considérablement la capacité du chercheur en drosophile à concevoir et à réaliser des expériences. Avec la sortie de FlyBase 2.0, il y a également eu une restructuration de l’architecture dorsale et un développement continu des interfaces de programmation d’applications (API) pour l’accès programmatique aux données de FlyBase. Dans cette revue, nous décrivons ces nouvelles caractéristiques et fonctionnalités majeures du site FlyBase 2.0 et comment elles soutiennent l’utilisation de la drosophile comme organisme modèle pour la découverte biologique et la recherche translationnelle.

INTRODUCTION

FlyBase (flybase.org) est le principal dépôt et portail web pour les données génétiques liées à Drosophila melanogaster, la mouche des fruits. Le consortium FlyBase est une équipe de conservateurs, de développeurs et d’éducateurs sur quatre sites : l’université de Harvard, l’université de Cambridge, l’université de l’Indiana et l’université du Nouveau-Mexique. FlyBase contient des données extraites de la littérature scientifique primaire couvrant plus d’un siècle de recherche en génétique. Au fil des ans, le consortium a développé de nouveaux formats d’affichage des données et de nouveaux outils bioinformatiques pour exploiter ces données à des fins de découverte biologique et de recherche translationnelle. Ces efforts ont transformé FlyBase d’une simple base de données en une puissante base de connaissances.

Le site FlyBase a subi des changements majeurs depuis notre dernier examen il y a deux ans (1). En février 2017, nous avons publié une version bêta du site web de nouvelle génération, que nous avons baptisé » FlyBase 2.0 « . Après une période de commentaires du public et de polissage, FlyBase 2.0 a remplacé le site web précédent en décembre 2017. Dans cette revue, nous allons discuter de ce qui est différent et meilleur sur ce site web de nouvelle génération, et de ce que vous pouvez attendre d’une visite sur le nouveau et amélioré FlyBase 2.0, maintenant et à l’avenir. Bien que nous nous concentrions sur les nouvelles données et les nouveaux outils dans cette revue, l’interface utilisateur (IU) de FlyBase 2.0 a subi quelques changements importants. Nous renvoyons le lecteur intéressé à l’examen précédent de la NAR en 2017 pour une discussion approfondie des autres aspects de FlyBase (1).

QuickSearch ET HITLISTS

Les statistiques d’utilisation indiquent que la plupart des utilisateurs interrogent FlyBase par le biais de » QuickSearch » sur la page d’accueil. En août 2017, FlyBase a ajouté l’onglet ‘GAL4 etc’ à ‘QuickSearch’. Cette recherche répond à un besoin de longue date d’un moyen gérable de rechercher dans FlyBase des GAL4 et d’autres pilotes binaires, ainsi que des rapporteurs lacZ et GFP, en utilisant différents types de modèles d’expression. La recherche renvoie les allèles, les constructions, les insertions et les stocks disponibles, et comporte une option permettant d’afficher les résultats dans des groupes associés (Figure 1). Elle signale également certains des pilotes GAL4 les plus populaires, en fonction des informations sur les commandes de stock fournies par le BDSC, et du nombre de fois où ils sont référencés dans les publications (2). L’onglet ‘GAL4 etc’ comprend également un lien vers une liste complète de ces pilotes GAL4 ‘fréquemment utilisés’.

Figure 1.

Résultat de la recherche GAL4. Un tableau de résultats pour une recherche utilisant l’onglet QuickSearch ‘GAL4 etc’, avec l’option de sortie ‘tableau intégré’ sélectionnée. Les références croisées sont utilisées pour regrouper les allèles, constructions, insertions et stocks associés. Deux pilotes GAL4 ‘fréquemment utilisés’ sont signalés.

Figure 1.

Bien que QuickSearch dispose de plusieurs onglets pour des recherches spécifiques, la plupart des gens utilisent l’onglet générique ‘Search FlyBase’. Compte tenu de l’importance de ce point d’entrée, nous avons consacré une grande partie de nos efforts à modifier et à améliorer fondamentalement les » listes de résultats » renvoyées par cette recherche pour FlyBase 2.0, en tirant pleinement parti de la nouvelle architecture du site (Figure 2). Les améliorations de l’interface utilisateur de la page de résultats de la liste de résultats comprennent une mise en page » responsive » pour la visualisation sur de petits écrans (par exemple, les smartphones), la pagination pour réduire les temps de chargement, et un nouveau formulaire de recherche intégré.

Figure 2.

Liste de résultats de recherche. La page de résultat de la recherche FlyBase en utilisant ‘Mad’ comme terme de recherche. Une » hitlist » est affichée, contenant des gènes, des stocks, des allèles et de nombreuses autres classes d’éléments de données FlyBase (certaines ne sont pas représentées). Le bouton de rapport sur les gènes Mad est marqué d’un drapeau bleu, indiquant les nouvelles annotations dans la version actuelle ; en passant la souris sur le drapeau, on obtient un résumé. La liste est encadrée par un ensemble d’outils permettant de filtrer par classe de données et par espèce, de paginer, de visualiser et d’analyser.

Figure 2.

Liste de résultats de recherche. La page de résultat de la recherche FlyBase en utilisant ‘Mad’ comme terme de recherche. Une » hitlist » est affichée, contenant des gènes, des stocks, des allèles et de nombreuses autres classes d’éléments de données FlyBase (certaines ne sont pas représentées). Le bouton de rapport sur les gènes Mad est marqué d’un drapeau bleu, indiquant les nouvelles annotations dans la version actuelle ; en passant la souris sur le drapeau, on obtient un résumé. La liste est encadrée par un ensemble d’outils pour le filtrage par classe de données et par espèce, la pagination, la visualisation et l’analyse.

Une caractéristique importante de la nouvelle liste de résultats est qu’elle est » mixte « , c’est-à-dire qu’elle contient toutes les classes de données FlyBase correspondant au terme de recherche. Chaque élément correspondant se trouve dans un panneau, contenant une sélection concise d’informations importantes (Figure 2). Les badges à code couleur situés le long de la marge de droite permettent un balayage rapide des éléments par classe de données (Figure 2). Un drapeau bleu indique que de nouvelles données ont été jointes à un élément dans la version la plus récente de FlyBase (Figure 2). Les boutons renvoient à des rapports FlyBase, à des navigateurs de génome ou à de nouvelles listes d’éléments connexes, par exemple, un panneau pour un gène donné contiendra des boutons pour les allèles, les stocks, les transcriptions, les polypeptides et les références associés (Figure 2). Chaque panneau de classe de données contient également des informations spécifiques à la classe ; par exemple, un panneau d’allèle affichera le mutagène utilisé pour générer l’allèle, toute insertion associée et le nombre d’énoncés de phénotypes attachés à l’allèle.

La liste de résultats mixtes peut être filtrée par espèce ou par classe de données (Figure 2). Le filtre par espèce vous permet de choisir d’inclure/exclure les transgènes humains dans les mouches, ainsi que les résultats non-mélanogaster ou non-drosophile. Les filtres de classe de données peuvent être configurés pour afficher une liste de résultats plus restreinte, composée de quelques classes de données intéressantes ou d’une seule classe de données. Le fait de limiter les résultats de la recherche à une seule classe de données permet de débloquer des outils et des options d’affichage pour une seule classe. Notez que la plupart des onglets de l’outil QuickSearch génèrent directement des listes d’occurrences à classe de données unique.

Lorsque la liste d’occurrences est filtrée sur une classe de données unique, une option de vue ‘Tableau’ devient disponible. La vue Tableau est un affichage tabulaire compact verticalement, avec des colonnes triables appropriées à cette classe (Figure 3). Un ensemble d’outils d’analyse devient disponible lorsqu’une liste de résultats comprend une seule classe de données. Ces outils apparaissent en haut de la page de la liste de résultats sous la forme d’une rangée de boutons intitulés « Convertir », « Exporter » et « Analyser » (Figure 3). Le bouton Convertir est alimenté par les nombreuses références croisées entre les classes de données, ce qui vous permet, par exemple, de transformer une liste de gènes en une liste de références connexes, ou une liste d’allèles en une liste d’insertions associées. Le bouton Exporter permet de transférer la liste de résultats actuelle vers l’un des nombreux outils FlyBase, tels que Batch Download ou Feature Mapper. C’est également le meilleur moyen de télécharger une liste de résultats sous forme d’un ensemble d’identifiants FlyBase. Le bouton Analyze peut générer plusieurs types de rapports courts résumant la liste de résultats, tels que les fréquences des termes anatomiques ou des classes phénotypiques pour une liste de résultats d’allèles, ou peut diriger la liste de résultats vers l’outil Interactions Browser. Avec ces améliorations, la liste de résultats est devenue un outil puissant pour examiner, affiner et analyser les résultats de recherche de FlyBase.

Figure 3.

Vue en tableau de la liste de résultats de recherche. La page de résultats de recherche ‘Mad’, filtrée sur la classe de données Allèle et basculée en vue tableau. Le menu de l’outil d’exportation a été étendu.

Figure 3.

AMÉLIORATIONS DES RAPPORTS

Il y a eu plusieurs changements notables dans les rapports FlyBase qui améliorent la convivialité et l’affichage des données. Par exemple, tous les rapports comprennent désormais un panneau de navigation sur le côté droit de la page (Figure 4). Ce panneau contient des liens vers toutes les sections de haut niveau du rapport et peut être utilisé pour passer rapidement aux sections qui vous intéressent. La section ‘Références’ de tous les rapports a été améliorée pour faciliter le filtrage et le tri des listes de publications (voir la section ‘Références interactives et résumés graphiques’ ci-dessous pour plus d’informations).

Figure 4.

FlyBase Gene Report. Rapport sur les gènes FlyBase pour le gène Cdk1. La section ‘Informations générales’ sert de ‘super-résumé’ des informations sur le gène. Le menu ‘Sections du rapport’ à droite flotte au fur et à mesure que l’utilisateur fait défiler le rapport, fournissant ainsi un outil de navigation facile. La section Emplacement génomique comprend des liens externes vers des navigateurs de génome au NCBI, Ensembl, UCSC et PopFly.

Figure 4.

FlyBase Gene Report. Rapport sur les gènes de FlyBase pour le gène Cdk1. La section ‘Informations générales’ sert de ‘super-résumé’ des informations sur le gène. Le menu ‘Sections du rapport’ à droite flotte au fur et à mesure que l’utilisateur fait défiler le rapport, fournissant ainsi un outil de navigation facile. La section Emplacement génomique comprend des liens externes vers des navigateurs de génome au NCBI, Ensembl, UCSC et PopFly.

Les informations fonctionnelles sommaires pour les gènes sont importantes pour les utilisateurs de notre site, en particulier ceux impliqués dans la recherche translationnelle. Au cours des dernières années, la section supérieure » Informations générales » des rapports sur les gènes de FlyBase a évolué en un » super-résumé « , comprenant une grande variété de données de synthèse sur les gènes (Figure 4). Dans FlyBase 2.0, cela inclut un Gene Snapshot, un résumé généré automatiquement, la description du groupe de gènes auquel le gène appartient (3), les données de fonction UniProt, les informations historiques du Red Book (4), et un résumé de Interactive Fly (http://www.sdbonline.org/fly/aimain/1aahome.htm), lorsque ceux-ci sont disponibles. Les instantanés de gènes sont des résumés écrits à la main qui sont sollicités par des chercheurs ayant une expertise sur ce gène, et fournissent un aperçu rapide de ce qui est connu sur la fonction de ce gène (1).

Un autre résumé utile dans les rapports de gènes de FlyBase 2.0 est le » ruban de résumé GO » (Figure 5). Ces rubans ont été précédemment mis en œuvre à la base de données du génome de la souris (MGD) (5), et affichent graphiquement une distillation de haut niveau des termes de la Gene Ontology (GO) (6). Ce ruban utilise la structure hiérarchique de l’ontologie pour condenser la curation GO en quelques dizaines de termes de haut niveau, qui sont ensuite affichés avec des puces de couleur indiquant le nombre d’annotations. Des termes plus spécifiques sont affichés sous forme de fenêtre contextuelle en passant la souris sur une cellule individuelle, ou peuvent être visualisés sous forme de tableau dans la section Gene Ontology du rapport. Le ruban GO améliore considérablement la capacité du chercheur à évaluer rapidement ce qui est connu sur la fonction d’un gène.

Figure 5.

Ruban de résumé GO. Ruban de résumé GO pour le gène Cdk1 de D. melanogaster, tel qu’intégré dans un rapport sur les gènes de FlyBase.

Figure 5.

Ruban de résumé GO. Ruban de résumé GO pour le gène Cdk1 de D. melanogaster, tel qu’il est intégré dans un rapport sur les gènes de FlyBase.

Les rapports sur les gènes de FlyBase 2.0 comprennent maintenant des graphiques de domaines protéiques provenant de deux sources de données InterPro, Pfam et SMART, lorsqu’ils sont disponibles (7,8). Les rapports sur les polypeptides affichent des informations sur les domaines pour l’isoforme spécifique tandis que les rapports sur les gènes affichent l’isoforme la plus longue. Des fenêtres contextuelles et des tableaux affichent des données plus détaillées sur les domaines et fournissent des liens vers les rapports InterPro. Ces affichages complètent les pistes dans les navigateurs de génome montrant ces mêmes données alignées sur des modèles de gènes (voir ci-dessous).

OUTILS EXPERIMENTAUX

Une fonction indispensable de FlyBase est d’être une source d’informations sur les souches de mouches et les réactifs pour concevoir des expériences. L’importance de cette fonction a été soulignée par une enquête FlyBase de 2012, où ∼90 % des répondants ont déclaré qu’ils trouvaient FlyBase » très utile » ou qu’ils » ne pourraient pas le faire sans FlyBase. À cette fin, nous avons créé une nouvelle classe de données » outil expérimental « . Les rapports décrivent les outils utilisés pour la détection des produits génétiques (par exemple, le tag FLAG, EGFP), le ciblage subcellulaire (par exemple, le signal de localisation nucléaire, la séquence signal), l’expression dans un système binaire (par exemple, UAS, GAL4), ou l’expression clonale/conditionnelle (par exemple, FLP, FRT). Chaque rapport sur les outils expérimentaux fournit une description de l’outil et de ses utilisations, ainsi que des tableaux consultables de constructions transgéniques connexes. Ces tableaux répertorient les composants des constructions (par exemple, la région régulatrice, le produit codé), les allèles transgéniques et les constructions, tous liés aux stocks afin que les chercheurs puissent facilement identifier les souches de mouches utiles. Pour trouver plus facilement ces outils, ils sont également affichés sur les rapports d’allèles et de constructions pertinents, et la nouvelle classe de données d’outils expérimentaux a été ajoutée aux listes de résultats interactives. Cette nouvelle classe de données d’outils expérimentaux renforce encore FlyBase en tant que ressource importante pour la recherche sur la drosophile.

MULTI-SPECIES MINING AND TRANSLATIONAL RESEARCH

Pendant un certain nombre d’années, FlyBase a hébergé des données et développé des outils pour identifier les orthologues des gènes de mouche dans de multiples organismes. Cela a inclus les données d’orthologie d’OrthoDB (https://www.orthodb.org/, PMID:27899580) (9) et la méta-analyse de DIOPT (https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) (10). Les appels d’orthologie d’OrthoDB dans FlyBase ont été mis à jour en 2017, et incluent maintenant de nombreuses espèces de drosophiles, d’autres insectes et de nombreuses autres espèces. En plus des liens vers le gène orthologue, les rapports de gènes comprennent maintenant des liens vers les groupes OrthoDB, ce qui permet à l’utilisateur d’identifier les orthologues dans un maximum de 5000 espèces.

DIOPT est une méta-analyse de nombreux algorithmes de prédiction d’orthologie différents (y compris OrthoDB), récemment mise à jour en 2018 pour inclure Arabidopsis thaliana et trois nouveaux algorithmes de prédiction. Dans FlyBase Gene Reports, les appels d’orthologie DIOPT et OrthoDB entre Drosophila melanogaster et un noyau d’autres espèces d’organismes modèles sont agrégés dans un affichage compact pour produire un résumé informatif. Cette section affiche également des liens vers l’alignement de la protéine avec l’orthologue prédit, et indique si l’orthologue humain, lorsqu’il est transféré dans la drosophile, complète fonctionnellement le mutant de la mouche.

FlyBase 2.0 a collaboré avec les groupes de Norbert Perrimon et Hugo Bellen pour développer de nouveaux outils en ligne qui permettent de rechercher la fonction des gènes orthologues (Gene2Function;http://gene2function.org) (11), la conservation des sites de phosphorylation et d’autres modifications post-traductionnelles des protéines (https://www.flyrnai.org/tools/iproteindb/web/) (bioRxiv https://doi.org/10.1101/310854), les interactions entre gènes dans les organismes (MIST;http://fgrtools.hms.harvard.edu/mist) (12), et un outil de recherche qui renvoie diverses informations sur les orthologues, la génétique humaine et les maladies (MARRVEL;http://marrvel.org) (13). Ces liens et d’autres liens utiles vers des ressources externes sont présentés sous forme d’icônes dans la barre latérale de la page d’accueil de FlyBase. Ce ne sont que quelques exemples de la façon dont FlyBase continue de collaborer avec des tiers pour développer de nouveaux outils et soutenir les découvertes fondamentales et la recherche translationnelle de la communauté drosophile.

Au cours des dernières années, le Consortium FlyBase a augmenté sa participation à l’Alliance des ressources génomiques (The Alliance;https://alliancegenome.org) (14). L’Alliance est une collaboration visant à consolider et à homogénéiser la présentation des données de différents organismes modèles, et à les intégrer à celles des humains, afin d’accélérer la découverte biologique et la recherche translationnelle. L’Alliance représente actuellement la collaboration de six bases de données d’organismes modèles (Saccharomyces Genome Database, WormBase, FlyBase, Zebrafish Information Network, Mouse Genome Database, Rat Genome Database) et le projet Gene Ontology (GO). Les activités de l’Alliance s’inscrivent dans le cadre du programme « Big Data to Knowledge » (https://commonfund.nih.gov/bd2k) du NIH Common Fund, dont un objectif important est le développement d’un « Data Commons » (https://commonfund.nih.gov/commons). Ce Data Commons sera le référentiel des big data générées par les recherches financées par le NIH, avec des API appropriées qui garantissent qu’elles sont accessibles à tous dans un format trouvable, accessible, interopérable et réutilisable (FAIR). Au cours des deux dernières années, FlyBase a fourni de grands ensembles de données au Data Commons et a développé des API pour faciliter leur utilisation. La phase pilote de Data Commons fait partie du plan stratégique des NIH pour la science des donnéeshttps://www.nih.gov/news-events/news-releases/nih-releases-strategic-plan-data-science pour développer de nouvelles méthodes de stockage, de partage et d’analyse des ensembles de données dérivés des NIH dans l’environnement en nuage. Pour plus d’informations sur ces programmes, l’Alliance et le rôle de FlyBase dans ces programmes, nous renvoyons le lecteur à un examen complet récent (14).

REFÉRENCES INTERACTIVES ET ABSTRATS GRAPHIQUES

Presque toutes les pages de rapport de FlyBase ont une section ‘Références’ qui contient une liste de publications associées à l’entité donnée (gène, allèle, insertion, etc.). Cette section a été améliorée dans FlyBase 2.0 avec une barre latérale interactive qui permet à l’utilisateur de filtrer par type de publication, par exemple ‘article de recherche’ ou ‘revue’ (Figure 6). Les utilisateurs peuvent également trier par année ou par auteur, effectuer des recherches par texte et exporter les listes de publications éditées vers le téléchargement par lots, sous forme de HitList ou de citations RIS pour leur gestionnaire de références préféré. Pour le rapport sur les gènes, l’un des défis croissants est de distinguer les articles qui se concentrent sur un gène de ceux qui n’y font qu’une référence mineure, par exemple comme un point de données dans une analyse de l’ensemble du génome. Pour aider l’utilisateur à identifier les articles les plus pertinents pour ce gène, nous avons introduit une section « publication représentative ». Cette catégorie contient jusqu’à 25 articles que FlyBase a identifiés comme étant les plus informatifs en ce qui concerne l’identification et la fonction d’un gène particulier. Pour identifier ces publications représentatives, nous avons développé un algorithme qui classe les articles par pertinence, sur la base de la quantité et de la nature des données conservées pour le gène donné, en donnant la priorité aux articles qui mentionnent le gène dans le titre ou le résumé. La capacité d’identifier les articles les plus informatifs parmi les centaines qui mentionnent un gène, ainsi que les autres capacités de tri de la section des références, commence à aborder le problème de la prise en charge de la littérature biologique en croissance rapide.

Figure 6.

Section des références interactive. Section des références avec options de filtrage par types de publications (barre latérale gauche), y compris les publications représentatives, et diverses options de tri, de recherche et d’exportation.

Figure 6.

Section des références interactive. Section des références avec des options de filtrage par types de publications (barre latérale gauche), y compris les publications représentatives, et diverses options de tri, de recherche et d’exportation.

Une autre façon pour FlyBase d’aider les utilisateurs à trouver la littérature pertinente est l’inclusion de « résumés graphiques » – des images qui résument les résultats d’un article, introduites pour la première fois par Cell Press il y a un certain nombre d’années. FlyBase a conclu un accord avec Cell Press pour afficher les résumés graphiques dans le rapport de référence correspondant. Des vignettes de ces résumés graphiques sont également incluses dans les panneaux des éléments de la liste des occurrences de référence, lorsqu’elles sont disponibles. Un clic sur le résumé graphique dirige l’utilisateur vers le résumé et l’article chez Cell Press.

Nouvelles pistes du navigateur de génome et migration de GBrowse à JBrowse

Pendant un certain nombre d’années, le navigateur de génome GBrowse dans FlyBase a affiché des modèles de gènes annotés et de nombreuses autres caractéristiques cartographiées du génome et de l’épigénome, toutes présentées sous forme de « pistes » distinctes (15) Les pistes uniques à FlyBase comprennent des graphiques de signaux d’ARN-Seq provenant de différents projets au cours du développement ou en réponse à des stimuli environnementaux et des domaines de protéines alignés sur la souche de référence du génome de D. melanogaster (1). Les informations sur les domaines protéiques ont été améliorées avec une nouvelle piste qui montre les domaines prédits par SMART, complétant la piste « Pfam » précédemment mise en œuvre, et fournissant une deuxième vue indépendante des domaines protéiques codés par un gène et de leur répartition entre les exons (7,8). Les rapports sur les gènes et les polypeptides contiennent également des schémas de ces domaines (voir Améliorations des rapports, ci-dessus).

Bien que GBrowse ait été la plateforme de navigation génomique de FlyBase pendant de nombreuses années, avec FlyBase 2.0 nous avons commencé à migrer les pistes génomiques vers un navigateur génomique de nouvelle génération appelé JBrowse (16). JBrowse possède un certain nombre de caractéristiques uniques qui améliorent la facilité et la fonctionnalité de la navigation dans le génome, comme une vitesse et une réactivité accrues, des pistes configurables, la sélection de pistes sur le même écran et la navigation par cliquer-glisser. La plupart des pages contenant des liens vers un navigateur de génome dans FlyBase 2.0 permettent actuellement aux utilisateurs de choisir entre GBrowse et JBrowse. Une fois notre migration vers JBrowse terminée, GBrowse sera déprécié mais restera accessible pendant un an, après quoi JBrowse sera le seul navigateur génomique hébergé par FlyBase. En plus des navigateurs de génome sur FlyBase, nous avons récemment ajouté des liens dans la section « autres vues de génome » du rapport sur les gènes vers les navigateurs du NCBI, d’Ensembl, d’UCSC et de PopFly, qui ont des annotations et des fonctionnalités différentes (Figure 4). Par exemple, le navigateur PopFly présente les polymorphismes de l’ADN identifiés dans les populations naturelles de D. melanogaster. FlyBase évalue continuellement de nouveaux ensembles de données communautaires à inclure dans nos navigateurs génomiques. Les plans actuels comprennent des améliorations de l’annotation du protéome du développement et l’ajout d’emplacements de sites cibles gRNA efficaces pour l’ingénierie CRISPR qui ont été prédits par le Drsosophila RNAi Screening Center (DRSC) (https://fgr.hms.harvard.edu/) (17).

NOUVELLES OUTILS POUR LES UTILISATEURS DE PUISSANCE

La construction de FlyBase 2.0 a entraîné un changement significatif de l’architecture dorsale qui a permis de nouvelles capacités pour les « utilisateurs de puissance ». Nous avons amélioré la compatibilité avec le cloud, ajouté une interface de programmation d’applications (API) (https://flybase.github.io/), et réorganisé fondamentalement le code pour avoir une structure plus modulaire. Nous continuons à soutenir une base de données Chado accessible au public (https://flybase.github.io/) et les téléchargements de fichiers XML, FASTA, GFF, GTF et d’autres fichiers de données en vrac via notre site FTP (ftp://ftp.flybase.org/).

CONNECTIONS AVEC LA COMMUNAUTÉ

FlyBase bénéficie grandement d’une communauté d’utilisateurs bien engagée. Depuis 2014, le groupe consultatif communautaire de FlyBase (FCAG), un groupe de plus de 500 chercheurs du monde entier qui s’engagent à améliorer FlyBase, a répondu à des enquêtes régulières avec des informations précieuses sur la façon dont les chercheurs utilisent réellement FlyBase, et des suggestions de nouvelles capacités. Ce retour d’information continue de façonner la manière dont FlyBase s’adapte aux nouvelles données et aux besoins des utilisateurs. Notre objectif est d’avoir un représentant au sein du FCAG de chaque laboratoire de drosophile ; les nouveaux représentants peuvent s’inscrire en suivant le lien FlyBase Community Advisory Group sous le menu Communauté de FlyBase (http://flybase.org/wiki/FlyBase:Community_Advisory_Group). Un autre effort continu est la production de tutoriels vidéo, qui s’est accélérée au cours des deux dernières années avec huit nouvelles vidéos postées sur notre chaîne YouTube (https://www.youtube.com/c/FlyBaseTV), couvrant diverses techniques de recherche, les nouvelles fonctionnalités du site web FlyBase 2.0, et JBrowse. Le nouveau site Web affiche également le flux Twitter de FlyBase (https://twitter.com/FlyBaseDotOrg) sur la barre latérale gauche de la page d’accueil, que nous utilisons pour alerter les utilisateurs des nouvelles données et fonctionnalités et des nouvelles d’actualité pertinentes pour la communauté des mouches.

PERSPECTIVES D’AVENIR

Un défi futur sera de suivre la croissance accélérée de l’information biologique, y compris la quantité toujours croissante de big data provenant de nouvelles méthodes à haut débit. Parmi ces nouvelles méthodes figure le séquençage de l’ARN d’une seule cellule (RNA-Seq), qui produit des volumes d’informations temporelles et spatiales à grain fin sur l’expression des gènes. Pour réaliser le plein potentiel de cette méthode, il sera impératif de développer de nouvelles approches pour intégrer et afficher la grande quantité de données dans un format interactif à la fois utile et facile. FlyBase continuera à intégrer les données du protéome du développement au fur et à mesure qu’elles seront disponibles, et à les intégrer aux données RNA-Seq via des affichages graphiques et JBrowse afin de produire un outil puissant pour la génomique fonctionnelle. Le développement futur de nouveaux affichages interactifs pour les voies et les interactions entre ces produits génétiques renforcera l’approche systémique de la compréhension des réseaux cellulaires. Nous envisageons également l’intégration d’autres classes de données fondamentalement nouvelles. Parmi celles-ci figurent les voies métaboliques de la drosophile et le microbiome, la population de micro-organismes dans et sur la mouche. Étant donné que la construction de FlyBase et d’autres MOD a été centrée sur les gènes, l’intégration de ces données présentera de nouveaux défis et nécessitera des collaborations et des liens avec des tiers. Bien entendu, relever tous ces défis liés à l’accroissement des informations biologiques dépendra de la disponibilité de ressources suffisantes.

FlyBase continuera également à être un membre actif de l’Alliance des ressources génomiques (The Alliance ; https://alliancegenome.org) (14). Cela comprendra des efforts pour homogénéiser les données et développer de nouveaux affichages et outils pour la recherche fondamentale et translationnelle. Une partie de ces efforts consistera à créer de nouvelles API permettant aux utilisateurs expérimentés de récupérer et de travailler avec des ensembles de données volumineux déposés dans le NIH Data Commons. Ce seront des efforts futurs importants, car le torrent de big data et l’importance de la bioinformatique pour la recherche biomédicale continuent d’augmenter.

Au cours des 27 dernières années, FlyBase a évolué d’une simple base de données à une puissante base de connaissances. En plus de son rôle essentiel de conservation et de diffusion des données sur les mouches, FlyBase continue de développer de nouveaux outils pour la découverte de la fonction des gènes à travers les organismes et leurs liens avec les maladies humaines (18). FlyBase reste essentiel pour prendre en charge les nombreux types de données spécifiques à la communauté de recherche sur les mouches, afin que le plein potentiel de la drosophile pour la découverte biologique et la recherche translationnelle puisse être réalisé (19). Continuer à développer la base de connaissances FlyBase 2.0 permettra à la communauté de la drosophile d’explorer de nouvelles idées, de rechercher de nouveaux aspects de la vie et d’aller audacieusement là où personne n’est allé auparavant.

ACKNOWLEDGEMENTS

Nous tenons à remercier les autres PI, conservateurs et développeurs de FlyBase pour leurs commentaires sur le manuscrit. Nous remercions tout particulièrement Julie Agapite et Victoria Jenkins pour leurs importantes contributions éditoriales. Au moment de la rédaction du présent document, les membres du Consortium FlyBase étaient les suivants : Norbert Perrimon, Susan Russo Gelbart, Julie Agapite, Kris Broll, Lynn Crosby, Gilberto dos Santos, David Emmert, L. Sian Gramates, Kathleen Falls, Victoria Jenkins, Beverley Matthews, Carol Sutherland, Christopher Tabone, Pinglei Zhou, Mark Zytkovicz, Nick Brown, Giulia Antonazzo, Helen Attrill, Phani Garapati, Alex Holmes, Aoife Larkin, Steven Marygold, Gillian Millburn, Clare Pilgrim, Vitor Trovisco, Pepe Urbano, Thomas Kaufman, Brian Calvi, Bryon Czoch, Josh Goodman, Victor Strelets, Jim Thurmond, Richard Cripps, Phillip Baker.

FUNDING

FlyBase est financé par NIH, NHGRI ; UK Medical Research Council . Financement de la charge d’accès libre : NIH, NHGRI .

Déclaration de conflit d’intérêts. Aucun déclaré.

Gramates

L.S.

Marygold

S.J.

Santos

G.D.

Urbano

J.M.

Antonazzo

Matthews

B.B.

Rey

A.J.

Tabone

C.J.

Crosby

M.A.

Emmert

D.B.

et al.

FlyBase at 25 : looking to the future

Nucleic Acids Res.

2017

;

D663

–

D671

Cook

K.R.

Parks

A.L.

Jacobus

L.M.

Kaufman

T.C.

Matthews

K.A.

Nouvelles ressources de recherche au centre de stock de drosophiles de Bloomington

Fly

2010

;

–

Attrill

Chutes

Goodman

J.L.

Millburn

G.H.

Antonazzo

Rey

A.J.

S.J.

Marygold.

FlyBase Consortium

FlyBase : établissement d’une ressource de groupe de gènes pour Drosophila melanogaster

Nucleic Acids Res.

2016

;

D786

–

D792

Lindsley

D.L.

Zimm

G.G.

Le génome de Drosophila Melanogaster

1992

;

San Diego

Academic Press

Smith

C.L.

Blake

J.A.

Kadin

J.A.

Richardson

J.E.

Bult

C.J.

Base de données du génome de la souris, G.

Base de données du génome de la souris (MGD)-2018 : base de connaissances sur la souris de laboratoire

Nucleic Acids Res.

2018

;

D836

–

D842

Le Consortium d’ontologie génétique

Expansion de la base de connaissances et des ressources de l’ontologie génétique

Nucleic Acids Res.

2017

;

D331

–

D338

Finn

R.D.

Coggill

Eberhardt

R.Y.

Eddy

S.R.

Mistry

Mitchell

A.L.

Potter

S.C.

Punta

Qureshi

Sangrador-Vegas

et al.

La base de données Pfam sur les familles de protéines : vers un avenir plus durable

Nucleic Acids Res.

2016

;

D279

–

D285

Letunic

Bork

20 ans de la ressource d’annotation de domaines protéiques SMART

Nucleic Acids Res.

2018

;

D493

–

D496

Zdobnov

E.M.

Tegenfeldt

Kuznetsov

Waterhouse

R.M.

Simao

F.A.

Ioannidis

Seppey

Loetscher

Kriventseva

E.V.

OrthoDB v9.1 : catalogage des annotations évolutives et fonctionnelles des orthologues

animaux, fongiques, végétaux, archéaux, bactériens et viraux.

Nucleic Acids Res.

2017

;

D744

–

D749

Flockhart

Vinayagam

Bergwitz

Berger

Perrimon

Mohr

S.E.

Une approche intégrative de la prédiction des orthologues pour les études axées sur les maladies et autres études fonctionnelles

BMC Bioinformatics

2011

;

357

Comjean

Mohr

S.E.

FlyBase

Perrimon

Gene2Function : Une ressource en ligne intégrée pour la découverte de fonctions génétiques

2017

;

2855

–

2858

Vinayagam

Nand

Comjean

Chung

Hao

Mohr

S.E.

Perrimon

Molecular Interaction Search Tool (MIST) : une ressource intégrée pour l’exploration des données d’interactions entre gènes et protéines

Nucleic Acids Res.

2018

;

D567

–

D574

Wang

Al-Ouran

Kim

S.Y.

Wan

Y.W.

Wangler

M.F.

Yamamoto

Chao

H.T.

Comjean

Mohr

S.E.

et al.

MARRVEL : Intégration des ressources génétiques humaines et d’organismes modèles pour faciliter l’annotation fonctionnelle du génome humain

Am. J. Hum. Genet.

2017

;

100

843

–

853

Howe

D.G.

Blake

J.A.

Bradford

Y.M.

Bult

C.J.

Calvi

B.R.

Engel

S.R.

Kadin

J.A.

Kaufman

T.C.

Kishore

Laulederkind

S.J.F.

et al.

Model organism data evolving in support of translational medicine

Lab. Anim. (NY)

2018

;

277

–

289

Stein

L.D.

Utilisation de GBrowse 2.0 pour visualiser et partager les données de séquences de nouvelle génération

Brief. Bioinform.

2013

;

162

–

171

Buels

Yao

Diesh

C.M.

Hayes

R.D.

Munoz-Torres

Helt

Goodstein

D.M.

Elsik

C.G.

Lewis

S.E.

Stein

et al.

JBrowse : une plateforme web dynamique pour la visualisation et l’analyse du génome

Genome Biol.

2016

;

Mohr

S.E.

Ewen-Campen

Housden

B.E.

Viswanatha

Perrimon

Création d’ARN guidesCRISPR pour les applications de recherche

FEBS J.

2016

;

283

3232

–

3238

Wangler

M.F.

Yamoto

Bellen

H.J.

Les mouches à fruits dans la recherche biomédicale

Genetics

2015

;

199

639

–

653

Bilder

Irvine

K.D.

Faire le point sur l’écosystème de recherche sur la drosophile

Genetics

2017

;

206

1227

–

1236

Notes de l’auteur

Les membres du Consortium FlyBase sont énumérés dans les Remerciements.

Il s’agit d’un article en accès libre distribué selon les termes de la licence Creative Commons Attribution (http://creativecommons.org/licenses/by/4.0/), qui permet la réutilisation, la distribution et la reproduction sans restriction sur n’importe quel support, à condition que l’œuvre originale soit correctement citée.

Virtual world

Abstract

INTRODUCTION

QuickSearch ET HITLISTS

AMÉLIORATIONS DES RAPPORTS

OUTILS EXPERIMENTAUX

MULTI-SPECIES MINING AND TRANSLATIONAL RESEARCH

REFÉRENCES INTERACTIVES ET ABSTRATS GRAPHIQUES

Nouvelles pistes du navigateur de génome et migration de GBrowse à JBrowse

NOUVELLES OUTILS POUR LES UTILISATEURS DE PUISSANCE

CONNECTIONS AVEC LA COMMUNAUTÉ

PERSPECTIVES D’AVENIR

ACKNOWLEDGEMENTS

FUNDING

Notes de l’auteur

Laisser un commentaire Annuler la réponse

Articles récents