FlyBase 2.0: la próxima generación

Abstract

FlyBase (flybase.org) es una base de conocimientos que apoya a la comunidad de investigadores que utilizan la mosca de la fruta, Drosophila melanogaster, como organismo modelo. El equipo de FlyBase conserva y organiza una gran variedad de información genética, molecular, genómica y de desarrollo sobre Drosophila. A principios de 2018, se lanzó ‘FlyBase 2.0’ con una interfaz de usuario significativamente mejorada y nuevas herramientas. Entre estos importantes cambios se encuentra una nueva organización de los resultados de la búsqueda en listas o tablas interactivas (hitlists), listas de referencias mejoradas y nuevos gráficos de dominios de proteínas. Una nueva e importante clase de datos llamada «herramientas experimentales» consolida la información sobre cepas de moscas útiles y otros recursos relacionados con un gen específico, lo que mejora significativamente la capacidad del investigador de Drosophila para diseñar y llevar a cabo experimentos. Con el lanzamiento de FlyBase 2.0, también se ha producido una reestructuración de la arquitectura del backend y un desarrollo continuo de las interfaces de programación de aplicaciones (API) para el acceso programático a los datos de FlyBase. En esta revisión, describimos estas nuevas características y funcionalidades principales del sitio FlyBase 2.0 y cómo apoyan el uso de Drosophila como organismo modelo para el descubrimiento biológico y la investigación traslacional.

INTRODUCCIÓN

FlyBase (flybase.org) es el principal repositorio y portal web de datos genéticos relacionados con Drosophila melanogaster, la mosca de la fruta. El Consorcio FlyBase está formado por un equipo de conservadores, desarrolladores y educadores de cuatro centros: la Universidad de Harvard, la Universidad de Cambridge, la Universidad de Indiana y la Universidad de Nuevo México. FlyBase contiene datos curados de la literatura científica primaria que abarca más de un siglo de investigación genética. A lo largo de los años, el consorcio ha desarrollado nuevos formatos de visualización de datos y nuevas herramientas bioinformáticas para extraer estos datos con vistas al descubrimiento biológico y la investigación traslacional. Estos esfuerzos han transformado FlyBase de una simple base de datos a una poderosa base de conocimientos.

El sitio de FlyBase ha sufrido cambios importantes desde nuestra última revisión hace dos años (1). En febrero de 2017, lanzamos una versión beta del sitio web de próxima generación, que hemos denominado ‘FlyBase 2.0’. Tras un periodo de comentarios públicos y de pulido, FlyBase 2.0 sustituyó al sitio web anterior en diciembre de 2017. En esta reseña, hablaremos de lo que es diferente y mejor de este sitio web de nueva generación, y de lo que puede esperar de una visita al nuevo y mejorado FlyBase 2.0, ahora y en el futuro. Aunque en esta revisión nos centramos en los nuevos datos y herramientas, se han producido algunos cambios importantes en la interfaz de usuario (UI) de FlyBase 2.0. Remitimos al lector interesado a la anterior revisión de NAR en 2017 para una amplia discusión de otros aspectos de FlyBase (1).

QuickSearch Y HITLISTS

Las estadísticas de uso indican que la mayoría de los usuarios consultan FlyBase a través de ‘QuickSearch’ en la página de inicio. En agosto de 2017, FlyBase añadió la pestaña ‘GAL4 etc’ a ‘QuickSearch’. Esta búsqueda responde a una antigua necesidad de una forma manejable de buscar en FlyBase GAL4 y otros controladores binarios, así como reporteros lacZ y GFP, utilizando diferentes tipos de patrones de expresión. La búsqueda devuelve alelos, construcciones, inserciones y stocks disponibles, y tiene una opción para mostrar los resultados en grupos asociados (Figura 1). También señala algunos de los controladores GAL4 más populares, basándose en la información de pedidos de existencias del BDSC, y en el número de veces que se hace referencia a ellos en las publicaciones (2). La pestaña ‘GAL4 etc’ también incluye un enlace a una lista completa de estos controladores GAL4 «de uso frecuente».

Figura 1.

Resultado de la búsqueda de GAL4. Una tabla de resultados para una búsqueda utilizando la pestaña ‘GAL4 etc’ QuickSearch, con la opción de salida ‘tabla integrada’ seleccionada. Las referencias cruzadas se utilizan para agrupar alelos, construcciones, inserciones y poblaciones asociadas. Se marcan dos controladores GAL4 de uso frecuente.

Figura 1.

Resultado de la búsqueda de GAL4. Una tabla de resultados para una búsqueda utilizando la pestaña ‘GAL4 etc’ QuickSearch, con la opción de salida ‘tabla integrada’ seleccionada. Las referencias cruzadas se utilizan para agrupar alelos, construcciones, inserciones y poblaciones asociadas. Se marcan dos controladores GAL4 de uso frecuente.

Aunque QuickSearch tiene múltiples pestañas para búsquedas específicas, la mayoría de la gente utiliza la pestaña genérica ‘Search FlyBase’. Dada la importancia de este punto de entrada, hemos dedicado gran parte de nuestro esfuerzo a cambiar y mejorar fundamentalmente las «listas de resultados» devueltas por esta búsqueda para FlyBase 2.0, aprovechando al máximo la nueva arquitectura del sitio (Figura 2). Las mejoras de la interfaz de usuario de la página de resultados de la lista de aciertos incluyen un diseño «responsivo» para su visualización en pantallas pequeñas (por ejemplo, teléfonos inteligentes), paginación para reducir los tiempos de carga y un nuevo formulario de búsqueda incrustado.

Figura 2.

Lista de aciertos de la búsqueda. La página de resultados de la búsqueda en FlyBase utilizando ‘Mad’ como término de búsqueda. Se muestra una «lista de resultados» que contiene genes, poblaciones, alelos y muchas otras clases de elementos de datos de FlyBase (algunos no se muestran). El botón de informe del gen Mad está marcado con una bandera azul, que indica nuevas anotaciones en la versión actual; al pasar el ratón sobre la bandera se muestra un resumen. La lista está enmarcada con una serie de herramientas para filtrar por clase de datos y especies, paginación, visualización y análisis.

Figura 2.

Lista de resultados de la búsqueda. La página de resultados de la búsqueda en FlyBase utilizando ‘Mad’ como término de búsqueda. Se muestra una «lista de resultados» que contiene genes, poblaciones, alelos y muchas otras clases de elementos de datos de FlyBase (algunos no se muestran). El botón de informe del gen Mad está marcado con una bandera azul, que indica nuevas anotaciones en la versión actual; al pasar el ratón sobre la bandera se muestra un resumen. La lista está enmarcada con una serie de herramientas para filtrar por clase de datos y especies, paginación, visualización y análisis.

Una característica importante de la nueva lista de resultados es que es «mixta», es decir, que contiene todas las clases de datos de FlyBase que coinciden con el término de búsqueda. Cada elemento coincidente se encuentra en un panel, que contiene una selección concisa de información importante (Figura 2). Las insignias codificadas por colores a lo largo del margen derecho permiten escanear rápidamente los elementos por clase de datos (Figura 2). Una bandera azul indica que se han adjuntado nuevos datos a un elemento en la versión más reciente de FlyBase (Figura 2). Los botones enlazan con los informes de FlyBase, los navegadores del genoma o las nuevas listas de resultados de elementos relacionados, por ejemplo, un panel para un determinado gen contendrá botones para los alelos, las poblaciones, los transcritos, los polipéptidos y las referencias asociadas (Figura 2). Cada panel de clase de datos también contiene información específica de la clase; por ejemplo, un panel de alelos mostrará el mutágeno utilizado para generar el alelo, cualquier inserción asociada y el número de declaraciones de fenotipo adjuntas al alelo.

La lista de resultados mixta puede filtrarse por especie o por clase de datos (Figura 2). El filtro por especie permite elegir si se incluyen/excluyen los transgenes humanos en las moscas, así como los resultados no melanogaster o no Drosophila. Los filtros de clase de datos pueden configurarse para mostrar una lista de resultados más reducida que conste de unas pocas clases de datos de interés, o de una sola clase de datos. Al limitar los resultados de la búsqueda a una sola clase de datos, se desbloquean las herramientas y las opciones de visualización de una sola clase. Tenga en cuenta que la mayoría de las pestañas de la herramienta QuickSearch generan directamente listas de aciertos de una sola clase de datos.

Cuando la lista de aciertos se filtra a una sola clase de datos, aparece la opción de vista «Tabla». La vista de tabla es una visualización tabular verticalmente compacta, con columnas ordenables apropiadas para esa clase (Figura 3). Un conjunto de herramientas de análisis está disponible cuando una lista de resultados comprende una sola clase de datos. Estas herramientas aparecen en la parte superior de la página de la lista de resultados como una fila de botones etiquetados como «Convertir», «Exportar» y «Analizar» (Figura 3). El botón «Convertir» se nutre de las amplias referencias cruzadas entre las clases de datos, lo que permite, por ejemplo, convertir una lista de genes en una lista de referencias relacionadas, o una lista de alelos en una lista de inserciones asociadas. El botón Exportar lleva la lista de aciertos actual a cualquiera de las diversas herramientas de FlyBase, como Batch Download o Feature Mapper. Esta es también la mejor manera de descargar una lista de aciertos como un conjunto de IDs de FlyBase. El botón Analyze puede generar varios tipos de informes breves que resumen la lista de aciertos, como las frecuencias de los términos anatómicos o las clases fenotípicas para una lista de aciertos de alelos, o puede dirigir la lista de aciertos a la herramienta Interactions Browser. Con estas mejoras, la lista de resultados se ha convertido en una poderosa herramienta para revisar, refinar y analizar los resultados de la búsqueda en FlyBase.

Figura 3.

Vista de la tabla de la lista de resultados de la búsqueda. La página de resultados de la búsqueda ‘Mad’, filtrada a la clase de datos Allele y cambiada a la vista de tabla. El menú de la herramienta de exportación se ha ampliado.

Figura 3.

Vista de tabla de la lista de resultados de la búsqueda. La página de resultados de la búsqueda ‘Mad’, filtrada a la clase de datos Allele y cambiada a la vista de tabla. Se ha ampliado el menú de la herramienta de exportación.

MEJORAS EN LOS INFORMES

Ha habido varios cambios notables en los informes de FlyBase que mejoran la usabilidad y la visualización de los datos. Por ejemplo, todos los informes incluyen ahora un panel de navegación en la parte derecha de la página (Figura 4). Este panel contiene enlaces a todas las secciones de nivel superior del informe y puede utilizarse para saltar rápidamente a las secciones de interés. La sección «Referencias» de todos los informes se ha mejorado para facilitar el filtrado y la clasificación de las listas de publicaciones (para más información, véase la sección «Referencias interactivas y resúmenes gráficos»).

Figura 4.

Informe de genes de FlyBase. Informe de genes de FlyBase para el gen Cdk1. La sección de información general sirve como un «superresumen» de la información del gen. El menú «Secciones del informe», situado a la derecha, flota a medida que el usuario se desplaza por el informe, proporcionando una herramienta de navegación fácil. La sección de localización genómica incluye enlaces externos a buscadores de genomas en NCBI, Ensembl, UCSC y PopFly.

Figura 4.

Informe de genes de FlyBase. Informe de genes de FlyBase para el gen Cdk1. La sección de información general sirve como un «superresumen» de la información del gen. El menú «Secciones del informe», situado a la derecha, flota a medida que el usuario se desplaza por el informe, proporcionando una herramienta de navegación fácil. La sección de localización genómica incluye enlaces externos a buscadores de genomas en el NCBI, Ensembl, UCSC y PopFly.

La información funcional resumida de los genes es importante para los usuarios de nuestro sitio, especialmente los que participan en la investigación traslacional. Durante los últimos años, la sección superior de «Información general» de los informes de genes de FlyBase ha evolucionado hasta convertirse en un «superresumen», que comprende una amplia variedad de datos generales de los genes (Figura 4). En FlyBase 2.0, esto incluye una instantánea del gen, un resumen generado automáticamente, la descripción del grupo de genes al que pertenece el gen (3), datos de la función de UniProt, información histórica del Libro Rojo (4) y un resumen de Interactive Fly (http://www.sdbonline.org/fly/aimain/1aahome.htm), siempre que estén disponibles. Los Gene Snapshots son resúmenes escritos a mano que se solicitan a los investigadores con experiencia en ese gen, y proporcionan una visión general rápida de lo que se sabe sobre la función de ese gen (1).

Otro resumen útil en los informes de genes de FlyBase 2.0 es la «cinta de resumen GO» (Figura 5). Estas cintas se implementaron previamente en la Base de Datos del Genoma del Ratón (MGD) (5), y muestran gráficamente una destilación de nivel superior de los términos de la Ontología Genética (GO) (6). Esta cinta utiliza la estructura jerárquica de la Ontología para condensar la curación de GO en unas pocas docenas de términos de alto nivel, que luego se muestran con chips de intensidad de color que indican el número de anotaciones. Los términos más específicos se muestran como una ventana emergente al pasar el ratón por encima de una celda individual, o pueden verse en forma de tabla en la sección de Ontología Genética del informe. La cinta GO mejora significativamente la capacidad del investigador para evaluar rápidamente lo que se sabe sobre la función de un gen.

Figura 5.

Cinta de resumen GO. Cinta de resumen de GO para el gen Cdk1 de D. melanogaster, tal y como aparece en un informe de genes de FlyBase.

Figura 5.

Cinta de resumen de GO. Cinta de resumen de GO para el gen Cdk1 de D. melanogaster, tal y como está incrustado en un Informe de Genes de FlyBase.

Los Informes de Genes de FlyBase 2.0 incluyen ahora gráficos de dominios de proteínas de dos fuentes de datos InterPro, Pfam y SMART, cuando están disponibles (7,8). Los Informes de Polipéptidos muestran información de dominios para la isoforma específica mientras que los informes de Genes muestran la isoforma más larga. Las ventanas emergentes y las tablas muestran datos de dominio más detallados y proporcionan enlaces a los informes de InterPro. Estas visualizaciones complementan las pistas en los navegadores de genomas que muestran estos mismos datos alineados con modelos de genes (ver más abajo).

HERRAMIENTAS EXPERIMENTALES

Una función indispensable de FlyBase es como fuente de información sobre cepas de moscas y reactivos para diseñar experimentos. La importancia de esta función se puso de manifiesto en una encuesta de FlyBase de 2012 en la que ∼90% de los encuestados dijeron que FlyBase les resultaba «muy útil» o que «no podrían hacerlo sin FlyBase». Con este fin, hemos creado una nueva clase de datos «Herramienta experimental». Los informes describen las herramientas utilizadas para la detección del producto génico (por ejemplo, la etiqueta FLAG, EGFP), la orientación subcelular (por ejemplo, la señal de localización nuclear, la secuencia de señales), la expresión en un sistema binario (por ejemplo, UAS, GAL4) o la expresión clonal/condicional (por ejemplo, FLP, FRT). Cada informe de la herramienta experimental proporciona una descripción de la herramienta y sus usos, junto con tablas navegables de construcciones transgénicas relacionadas. Estas tablas enumeran los componentes del constructo (por ejemplo, la región reguladora, el producto codificado), los alelos transgénicos y los constructos, todo ello vinculado a las poblaciones para que los investigadores puedan identificar fácilmente las cepas de mosca útiles. Para encontrar más fácilmente estas herramientas, también se muestran en los informes de alelos y constructos relevantes, y se ha añadido la nueva clase de datos de herramientas experimentales a las listas de resultados interactivas. Esta nueva clase de datos de herramientas experimentales mejora aún más a FlyBase como un recurso importante para la investigación de Drosophila.

INVESTIGACIÓN TRANSLACIONAL Y DE MÚLTIPLES ESPECIES

Durante varios años, FlyBase ha albergado datos y desarrollado herramientas para identificar ortólogos de genes de mosca en múltiples organismos. Esto ha incluido datos ortológicos de OrthoDB (https://www.orthodb.org/, PMID:27899580) (9) y meta-análisis de DIOPT (https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) (10). Las llamadas ortológicas de OrthoDB en FlyBase se actualizaron en 2017, y ahora incluyen muchas especies de Drosophila, otros insectos y muchas otras especies. Además de los enlaces al gen ortólogo, los informes de genes incluyen ahora enlaces a los grupos de OrthoDB, lo que permite al usuario identificar ortólogos en hasta 5000 especies.

DIOPT es un meta-análisis de muchos algoritmos diferentes de predicción de ortología (incluyendo OrthoDB), recientemente actualizado en 2018 para incluir Arabidopsis thaliana y tres nuevos algoritmos de predicción. En FlyBase Gene Reports, las llamadas de ortología de DIOPT y OrthoDB entre Drosophila melanogaster y un conjunto básico de otras especies de organismos modelo se agregan en una pantalla compacta para producir un resumen informativo. Esta sección también muestra enlaces a la alineación de la proteína con el ortólogo predicho, e indica si el ortólogo humano, cuando se transfiere a Drosophila, complementa funcionalmente al mutante de la mosca.

FlyBase 2.0 ha colaborado con los grupos de Norbert Perrimon y Hugo Bellen en el desarrollo de nuevas herramientas en línea que permiten buscar la función de genes ortólogos (Gene2Function;http://gene2function.org) (11), la conservación de los sitios de fosforilación y otras modificaciones postraduccionales de las proteínas (https://www.flyrnai.org/tools/iproteindb/web/) (bioRxiv https://doi.org/10.1101/310854), las interacciones génicas entre organismos (MIST;http://fgrtools.hms.harvard.edu/mist) (12), y una herramienta de búsqueda que devuelve información diversa sobre ortólogos, genética humana y enfermedades (MARRVEL;http://marrvel.org) (13). Estos y otros enlaces útiles a recursos externos aparecen como iconos en la barra lateral de la página de inicio de FlyBase. Estos son sólo algunos de los ejemplos de cómo FlyBase sigue colaborando con terceros para desarrollar nuevas herramientas y apoyar los descubrimientos fundacionales y la investigación traslacional de la comunidad de Drosophila.

En los últimos años, el Consorcio FlyBase ha aumentado su participación en La Alianza de Recursos Genómicos (The Alliance;https://alliancegenome.org) (14). La «Alianza» es una colaboración para consolidar y homogeneizar la presentación de datos de diferentes organismos modelo, e integrarlos con los de los humanos, para acelerar el descubrimiento biológico y la investigación traslacional. La Alianza representa actualmente la colaboración de seis bases de datos de organismos modelo (Saccharomyces Genome Database, WormBase, FlyBase, Zebrafish Information Network, Mouse Genome Database, Rat Genome Database) y el proyecto Gene Ontology (GO). Las actividades de la Alianza forman parte del programa Big Data to Knowledge (https://commonfund.nih.gov/bd2k) del Fondo Común de los NIH, uno de cuyos objetivos importantes es el desarrollo de un «Data Commons» (https://commonfund.nih.gov/commons). Este Data Commons será el repositorio de los big data generados por la investigación financiada por los NIH, con APIs apropiadas que garanticen que son accesibles para todos en un formato localizable, accesible, interoperable y reutilizable (FAIR). En los últimos dos años, FlyBase ha proporcionado grandes conjuntos de datos al Data Commons y ha desarrollado APIs para facilitar su uso. La fase piloto de Data Commons forma parte del Plan Estratégico de los NIH para la Ciencia de los Datoshttps://www.nih.gov/news-events/news-releases/nih-releases-strategic-plan-data-science para desarrollar nuevos métodos para almacenar, compartir y analizar conjuntos de datos derivados de los NIH en el entorno de la nube. Para obtener más información sobre estos programas, la Alianza y el papel de FlyBase en ellos, remitimos al lector a una revisión exhaustiva reciente (14).

REFERENCIAS INTERACTIVAS Y RESÚMENES GRÁFICOS

Casi todas las páginas de informes de FlyBase tienen una sección de «Referencias» que contiene una lista de publicaciones asociadas a la entidad dada (gen, alelo, inserción, etc.). Esta sección se ha mejorado en FlyBase 2.0 con una barra lateral interactiva que permite al usuario filtrar por tipo de publicación, por ejemplo, «artículo de investigación» o «revisión» (Figura 6). Los usuarios también pueden ordenar por año o autor, buscar por texto y exportar las listas de publicaciones editadas a la descarga por lotes, como lista de resultados o como citas RIS para su gestor de referencias favorito. Para el Informe de Genes, uno de los retos crecientes es distinguir entre los artículos que se centran en un gen de los que sólo tienen una referencia menor a él, por ejemplo como un punto de datos en un análisis de todo el genoma. Para ayudar al usuario a identificar los artículos más relevantes para ese gen, hemos introducido una sección de «publicaciones representativas». Esta categoría contiene hasta 25 artículos que FlyBase ha identificado como los más informativos con respecto a la identificación y función de un gen en particular. Para identificar estas publicaciones representativas, hemos desarrollado un algoritmo que clasifica los artículos según su relevancia, basándose en la cantidad y naturaleza de los datos curados para el gen en cuestión, priorizando especialmente los artículos que mencionan el gen en el título o el resumen. La capacidad de identificar los artículos más informativos entre los cientos que mencionan un gen, junto con las otras capacidades de clasificación de la sección de referencias, comienza a abordar el problema de lidiar con la literatura biológica que crece rápidamente.

Figura 6.

Sección de referencias interactiva. Sección de referencias con opciones para filtrar por tipos de publicaciones (barra lateral izquierda), incluyendo publicaciones representativas, y varias opciones de ordenación, búsqueda y exportación.

Figura 6.

Sección de referencias interactivas. Sección de referencias con opciones para filtrar por tipos de publicaciones (barra lateral izquierda), incluidas las publicaciones representativas, y diversas opciones de ordenación, búsqueda y exportación.

Otra forma en que FlyBase intenta ayudar a los usuarios a encontrar la bibliografía pertinente es la inclusión de «resúmenes gráficos»: imágenes que resumen los hallazgos de un artículo, introducidas por primera vez por Cell Press hace varios años. FlyBase ha llegado a un acuerdo con Cell Press para mostrar los resúmenes gráficos en el informe de referencia correspondiente. Las miniaturas de estos resúmenes gráficos también se incluyen en los paneles de los elementos de la lista de resultados de referencia, cuando están disponibles. Al hacer clic en el resumen gráfico se dirige al usuario al resumen y al artículo en Cell Press.

NUEVAS PISTAS DEL NAVEGADOR DEL GENOMA Y MIGRACIÓN DE GBrowse A JBrowse

Durante varios años, el navegador del genoma GBrowse en FlyBase ha mostrado modelos de genes anotados y muchas otras características mapeadas del genoma y el epigenoma, todas mostradas como «pistas» separadas (15) Las pistas exclusivas de FlyBase incluyen gráficos de señales de RNA-Seq de diferentes proyectos a lo largo del tiempo de desarrollo o en respuesta a estímulos ambientales y dominios de proteínas alineados con la cepa de referencia del genoma de D. melanogaster (1). La información sobre dominios proteicos se ha mejorado con una nueva pista que muestra los dominios predichos por SMART, complementando la pista «Pfam» implementada anteriormente, y proporcionando una segunda visión independiente de qué dominios proteicos son codificados por un gen y cómo se distribuyen entre los exones (7,8). Los informes de genes y polipéptidos también contienen esquemas de estos dominios (ver mejoras en los informes, arriba).

Mientras que GBrowse ha sido la plataforma del navegador del genoma de FlyBase durante muchos años, con FlyBase 2.0 hemos comenzado a migrar las pistas del genoma a un navegador del genoma de próxima generación llamado JBrowse (16). JBrowse tiene una serie de características únicas que mejoran la facilidad y la funcionalidad de la navegación del genoma, como una mayor velocidad y capacidad de respuesta, pistas configurables, selección de pistas en la misma pantalla y navegación con un clic y arrastrando. La mayoría de las páginas con enlaces de navegación del genoma en FlyBase 2.0 permiten actualmente a los usuarios seleccionar entre GBrowse y JBrowse. Una vez completada nuestra migración a JBrowse, GBrowse quedará obsoleto pero seguirá siendo accesible durante un año, tras lo cual JBrowse será el único navegador de genomas alojado en FlyBase. Además de los navegadores del genoma en FlyBase, recientemente hemos añadido enlaces dentro de la sección «otras vistas del genoma» del Informe Gene a los navegadores del NCBI, Ensembl, UCSC y PopFly, que tienen diferentes anotaciones y funcionalidades (Figura 4). Por ejemplo, el navegador PopFly muestra polimorfismos de ADN identificados en poblaciones naturales de D. melanogaster. FlyBase evalúa continuamente nuevos conjuntos de datos comunitarios para incluirlos en nuestros navegadores de genomas. Los planes actuales incluyen mejoras en la anotación del proteoma del desarrollo y la adición de ubicaciones de sitios de destino de ARNg eficientes para la ingeniería CRISPR que han sido predichos por el Drsosophila RNAi Screening Center (DRSC) (https://fgr.hms.harvard.edu/) (17).

Nuevas herramientas para usuarios avanzados

La construcción de FlyBase 2.0 implicó un cambio significativo en la arquitectura del backend que permitió nuevas capacidades para los «usuarios avanzados». Mejoramos la compatibilidad con la nube, añadimos una interfaz de programación de aplicaciones (API) (https://flybase.github.io/) y reorganizamos fundamentalmente el código para tener una estructura más modular. Seguimos apoyando una base de datos Chado de acceso público (https://flybase.github.io/) y las descargas de XML, FASTA, GFF, GTF, y otros archivos de datos a granel a través de nuestro sitio FTP (ftp://ftp.flybase.org/).

CONEXIONES CON LA COMUNIDAD

FlyBase se beneficia enormemente de una comunidad de usuarios bien comprometida. Desde 2014, el Grupo Asesor de la Comunidad de FlyBase (FCAG), un grupo de más de 500 investigadores de todo el mundo comprometidos con la mejora de FlyBase, ha respondido a encuestas periódicas con información inestimable sobre cómo los investigadores utilizan realmente FlyBase, y con sugerencias sobre nuevas capacidades. Esta información sigue dando forma a la adaptación de FlyBase a los nuevos datos y necesidades de los usuarios. Nuestro objetivo es tener un representante en el FCAG de cada laboratorio de Drosophila; los nuevos representantes pueden registrarse siguiendo el enlace del Grupo Asesor de la Comunidad de FlyBase en el menú de la Comunidad en FlyBase (http://flybase.org/wiki/FlyBase:Community_Advisory_Group). Otro esfuerzo continuo es la producción de tutoriales en vídeo, que se ha acelerado en los últimos dos años con ocho nuevos vídeos publicados en nuestro canal de YouTube (https://www.youtube.com/c/FlyBaseTV), que cubren varias técnicas de búsqueda, nuevas características del sitio web FlyBase 2.0, y JBrowse. El nuevo sitio web también muestra el feed de Twitter de FlyBase (https://twitter.com/FlyBaseDotOrg) en la barra lateral izquierda de la página de inicio, que utilizamos para alertar a los usuarios de los nuevos datos y características y de las noticias de actualidad relevantes para la comunidad de moscas.

Mirando hacia el futuro

Un reto futuro será mantener el ritmo de crecimiento acelerado de la información biológica, incluyendo la cantidad cada vez mayor de big data de los nuevos métodos de alto rendimiento. Entre estos nuevos métodos se encuentra la secuenciación de ARN de una sola célula (RNA-Seq), que produce volúmenes de información temporal y espacial de grano fino sobre la expresión génica. Para aprovechar todo el potencial de este método, será imprescindible desarrollar nuevos enfoques para integrar y mostrar la gran cantidad de datos en un formato interactivo que sea útil y sencillo. FlyBase continuará integrando los datos del proteoma del desarrollo a medida que estén disponibles, y los integrará con los datos de RNA-Seq mediante visualizaciones gráficas y JBrowse para producir una poderosa herramienta para la genómica funcional. El desarrollo futuro de nuevas visualizaciones interactivas de las vías e interacciones entre estos productos génicos potenciará aún más un enfoque sistémico para comprender las redes celulares. También prevemos la integración de otras clases de datos fundamentalmente nuevas. Entre ellos se encuentran las vías metabólicas de Drosophila y el microbioma, la población de microorganismos dentro y sobre la mosca. Dado que la construcción de FlyBase y otros MODs se ha centrado en los genes, la integración de estos datos presentará nuevos retos y requerirá la colaboración de terceros y la creación de enlaces. Por supuesto, el cumplimiento de todos estos retos de la creciente información biológica dependerá de la disponibilidad de recursos suficientes.

FlyBase también continuará como miembro activo de la Alianza de Recursos Genómicos (The Alliance; https://alliancegenome.org) (14). Esto incluirá esfuerzos para homogeneizar los datos y desarrollar nuevas visualizaciones y herramientas para la investigación fundacional y traslacional. Parte de estos esfuerzos será la creación de nuevas APIs que permitan a los usuarios avanzados recuperar y trabajar con grandes conjuntos de datos depositados en el NIH Data Commons. Estos serán importantes esfuerzos futuros, ya que el torrente de big data y la importancia de la bioinformática para la investigación biomédica sigue aumentando.

Durante los últimos 27 años FlyBase ha pasado de ser una simple base de datos a una potente base de conocimientos. Además de su función esencial de curar y difundir los datos de las moscas, FlyBase sigue desarrollando nuevas herramientas para descubrir la función de los genes en todos los organismos y sus vínculos con las enfermedades humanas (18). FlyBase sigue siendo esencial para dar soporte a los numerosos tipos de datos específicos de la comunidad de investigadores de moscas, de modo que se pueda aprovechar todo el potencial de Drosophila para el descubrimiento biológico y la investigación traslacional (19). Seguir construyendo la base de conocimientos de FlyBase 2.0 permitirá a la comunidad de Drosophila explorar nuevas ideas, buscar nuevos aspectos de la vida y llegar con audacia a donde nadie ha llegado antes.

AGRADECIMIENTOS

Queremos agradecer a los demás IP, conservadores y desarrolladores de FlyBase sus comentarios sobre el manuscrito. Un agradecimiento especial a Julie Agapite y Victoria Jenkins por sus extensas contribuciones editoriales. En el momento de escribir este artículo, los miembros del Consorcio FlyBase eran: Norbert Perrimon, Susan Russo Gelbart, Julie Agapite, Kris Broll, Lynn Crosby, Gilberto dos Santos, David Emmert, L. Sian Gramates, Kathleen Falls, Victoria Jenkins, Beverley Matthews, Carol Sutherland, Christopher Tabone, Pinglei Zhou, Mark Zytkovicz, Nick Brown, Giulia Antonazzo, Helen Attrill, Phani Garapati, Alex Holmes, Aoife Larkin, Steven Marygold, Gillian Millburn, Clare Pilgrim, Vitor Trovisco, Pepe Urbano, Thomas Kaufman, Brian Calvi, Bryon Czoch, Josh Goodman, Victor Strelets, Jim Thurmond, Richard Cripps, Phillip Baker.

Financiación

FlyBase está financiada por los NIH, NHGRI ; UK Medical Research Council . Financiación para el cargo de acceso abierto: NIH, NHGRI .

Declaración de conflicto de intereses. Ninguno declarado.

Gramates
L.S.

,

Marygold
S.J.

,

Santos
G.D.

,

Urbano
J.M.

,

Antonazzo
G.

,

Matthews
B.B.

,

Rey
A.J.

,

Tabone
C.J.

,

Crosby
M.A.

,

Emmert
D.B.

et al.

FlyBase at 25: looking to the future

.

Nucleic Acids Res.
2017

;

45

:

D663

D671

.

Cook
K.R.

,

Parks
A.L.

,

Jacobus
L.M.

,

Kaufman
T.C.

,

Matthews
K.A.
Nuevos recursos de investigación en el centro de reservas de drosophila de Bloomington

.

Fly

.

2010

;

4

:

88

91

.

Attrill
H.

,

Falls
K.

,

Goodman
J.L.

,

Millburn
G.H.

,

Antonazzo
G.

,

Rey
A.J.

,

S.J.
Marygold.
FlyBase Consortium
FlyBase: establishing a Gene Group resource for Drosophila melanogaster

.

Nucleic Acids Res.
2016

;

44

:

D786

D792

.

Lindsley
D.L.

,

Zimm
G.G.
El genoma de Drosophila Melanogaster

.

1992

;

San Diego

:

Academic Press

.

Smith
C.L.

,

Blake
J.A.

,

Kadin
J.A.

,

Richardson
J.E.

,

Bult
C.J.
Base de datos del genoma del ratón, G.
Base de datos del genoma del ratón (MGD)-2018: base de conocimientos para el ratón de laboratorio

.

Nucleic Acids Res.
2018

;

46

:

D836

D842

.

El Consorcio de Ontología Genética
Ampliación de la base de conocimientos y recursos de ontología genética

.

Nucleic Acids Res.
2017

;

45

:

D331

D338

.

Finn
R.D.

,

Coggill
P.

,

Eberhardt
R.Y.

,

Eddy
S.R.

,

Mistry
J.

,

Mitchell
A.L.

,

Potter
S.C.

,

Punta
M.

,

Qureshi
M.

,

Sangrador-Vegas
A.

et al.

La base de datos de familias de proteínas Pfam: hacia un futuro más sostenible

.

Nucleic Acids Res.
2016

;

44

:

D279

D285

.

Letunic
I.

,

Bork
P.
20 años del recurso de anotación de dominios de proteínas SMART

.

Nucleic Acids Res.
2018

;

46

:

D493

D496

.

Zdobnov
E.M.

,

Tegenfeldt
F.

,

Kuznetsov
D.

,

Waterhouse
R.M.

,

Simao
F.A.

,

Ioannidis
P.

,

Seppey
M.

,

Loetscher
A.

,

Kriventseva
E.V.
OrthoDB v9.1: catalogación de anotaciones evolutivas y funcionales para ortólogos de animales, hongos, plantas, arqueas, bacterias y virus

.

Nucleic Acids Res.
2017

;

45

:

D744

D749

.

Hu
Y.

,

Flockhart
I.

,

Vinayagam
A.

,

Bergwitz
C.

,

Berger
B.

,

Perrimon
N.

,

Mohr
S.E.
Un enfoque integrador de la predicción de ortólogos para estudios centrados en la enfermedad y otros estudios funcionales

.

BMC Bioinformatics

.

2011

;

12

:

357

.

Hu
Y.

,

Comjean
A.

,

Mohr
S.E.

,

FlyBase
C.

,

Perrimon
N.
Gene2Function: Un recurso integrado en línea para el descubrimiento de funciones genéticas

.

2017

;

7

:

2855

2858

.

Hu
Y.

,

Vinayagam
A.

,

Nand
A.

,

Comjean
A.

,

Chung
V.

,

Hao
T.

,

Mohr
S.E.

,

Perrimon
N.
Herramienta de búsqueda de interacción molecular (MIST): un recurso integrado para la minería de datos de interacción de genes y proteínas

.

Nucleic Acids Res.
2018

;

46

:

D567

D574

.

Wang
J.

,

Al-Ouran
R.

,

Hu
Y.

,

Kim
S.Y.

,

Wan
Y.W.

,

Wangler
M.F.

,

Yamamoto
S.

,

Chao
H.T.

,

Comjean
A.

,

Mohr
S.E.

et al.

MARRVEL: Integración de recursos genéticos humanos y de organismos modelo para facilitar la anotación funcional del genoma humano

.

Am. J. Hum. Genet.
2017

;

100

:

843

853

.

Howe
D.G.

,

Blake
J.A.

,

Bradford
Y.M.

,

Bult
C.J.

,

Calvi
B.R.

,

Engel
S.R.

,

Kadin
J.A.

,

Kaufman
T.C.

,

Kishore
R.

,

Laulederkind
S.J.F.

et al.

Model organism data evolving in support of translational medicine

.

Lab. Anim. (NY)

.

2018

;

47

:

277

289

.

Stein
L.D.
Using GBrowse 2.0 to visualize and share next-generation sequence data

.

Breve. Bioinform.
2013

;

14

:

162

171

.

Buels
R.

,

Yao
E.

,

Diesh
C.M.

,

Hayes
R.D.

,

Munoz-Torres
M.

,

Helt
G.

,

Goodstein
D.M.

,

Elsik
C.G.

,

Lewis
S.E.

,

Stein
L.

et al.

JBrowse: a dynamic web platform for genome visualization and analysis

.

Genome Biol.
2016

;

17

:

66

.

Mohr
S.E.

,

Hu
Y.

,

Ewen-Campen
B.

,

Housden
B.E.

,

Viswanatha
R.

,

Perrimon
N.
Diseño de ARN guía CRISPR para aplicaciones de investigación

.

FEBS J.
2016

;

283

:

3232

3238

.

Wangler
M.F.

,

Yamamoto
S.

,

Bellen
H.J.
La mosca de la fruta en la investigación biomédica

.

Genetics

.

2015

;

199

:

639

653

.

Bilder
D.

,

Irvine
K.D.
Haciendo balance del ecosistema de investigación de Drosophila

.

Genetics

.

2017

;

206

:

1227

1236

.

Notas del autor

Los miembros del Consorcio FlyBase aparecen en los Agradecimientos.

© The Author(s) 2018. Publicado por Oxford University Press en nombre de Nucleic Acids Research.
Este es un artículo de acceso abierto distribuido bajo los términos de la Licencia de Atribución de Creative Commons (http://creativecommons.org/licenses/by/4.0/), que permite la reutilización, distribución y reproducción sin restricciones en cualquier medio, siempre que se cite adecuadamente la obra original.

Deja una respuesta

Tu dirección de correo electrónico no será publicada.