FlyBase 2.0: seuraava sukupolvi

Abstract

FlyBase (flybase.org) on tietopankki, joka tukee tutkijayhteisöä, joka käyttää hedelmäkärpästä, Drosophila melanogasteria, malliorganismina. FlyBase-tiimi kuratoi ja organisoi monipuolista geneettistä, molekulaarista, genomista ja kehitystietoa Drosophilasta. Vuoden 2018 alussa julkaistiin ”FlyBase 2.0”, jossa on merkittävästi parannettu käyttöliittymä ja uusia työkaluja. Näihin tärkeisiin muutoksiin kuuluvat hakutulosten uusi järjestäminen interaktiivisiksi listoiksi tai taulukoiksi (osumalistat), parannetut lähdeluettelot ja uudet proteiinialueiden grafiikat. Tärkeä uusi tietoluokka nimeltä ”experimental tools” kokoaa yhteen tiedot hyödyllisistä kärpäskannoista ja muista tiettyyn geeniin liittyvistä resursseista, mikä parantaa merkittävästi Drosophila-tutkijoiden mahdollisuuksia suunnitella ja toteuttaa kokeita. FlyBase 2.0:n julkaisun myötä myös taustajärjestelmän arkkitehtuuria on uudistettu ja sovellusohjelmointirajapintojen (API) kehittämistä on jatkettu, jotta FlyBase-tietoihin voidaan päästä ohjelmallisesti käsiksi. Tässä katsauksessa kuvaamme näitä FlyBase 2.0 -sivuston tärkeimpiä uusia ominaisuuksia ja toiminnallisuuksia ja sitä, miten ne tukevat Drosophilan käyttöä malliorganismina biologisessa keksinnössä ja translaatiotutkimuksessa.

TOIMINTA

FlyBase (flybase.org) on hedelmäperhosen Drosophila melanogasterin geneettisen datan pääasiallinen tietovarasto ja verkkoportaali. FlyBase-konsortio on ryhmä kuraattoreita, kehittäjiä ja kouluttajia neljästä paikasta: Harvardin yliopistosta, Cambridgen yliopistosta, Indianan yliopistosta ja New Mexicon yliopistosta. FlyBase sisältää tietoja, jotka on kuratoitu ensisijaisesta tieteellisestä kirjallisuudesta, joka kattaa yli vuosisadan genetiikan tutkimuksen. Vuosien varrella konsortio on kehittänyt uusia tietojen esittämismuotoja ja uusia bioinformatiikkatyökaluja, joiden avulla näitä tietoja voidaan hyödyntää biologisten löydösten tekemisessä ja translaatiotutkimuksessa. Nämä ponnistelut ovat muuttaneet FlyBasen yksinkertaisesta tietokannasta tehokkaaksi tietopankiksi.

FlyBase-sivusto on kokenut suuria muutoksia kahden vuoden takaisen edellisen katsauksen jälkeen (1). Helmikuussa 2017 julkaisimme beta-version seuraavan sukupolven sivustosta, jota olemme kutsuneet nimellä ”FlyBase 2.0”. Julkisen palautteen ja hiomisen jälkeen FlyBase 2.0 korvasi edellisen verkkosivuston joulukuussa 2017. Tässä katsauksessa keskustelemme siitä, mikä tässä seuraavan sukupolven verkkosivustossa on erilaista ja parempaa ja mitä voit odottaa vierailulta uudessa ja parannetussa FlyBase 2.0:ssa nyt ja tulevaisuudessa. Vaikka keskitymme tässä katsauksessa uusiin tietoihin ja työkaluihin, FlyBase 2.0:n käyttöliittymään (UI) on tehty joitakin tärkeitä muutoksia. Viittaamme kiinnostuneelle lukijalle edelliseen, vuonna 2017 julkaistuun NAR:n katsaukseen, jossa käsitellään laajasti FlyBasen muita näkökohtia (1).

Pikahaku ja hakuluettelot

Käyttötilastot osoittavat, että suurin osa käyttäjistä hakee FlyBase-tietokannan tietoja etusivulla sijaitsevan ”Pikahaun” kautta. Elokuussa 2017 FlyBase lisäsi ’Pikahakuun’ välilehden ’GAL4 etc’. Tämä haku vastasi pitkään jatkuneeseen tarpeeseen löytää hallittavissa oleva tapa hakea FlyBasesta GAL4- ja muita binääriajureita sekä lacZ- ja GFP-reporttereita erityyppisiä ilmentymismalleja käyttäen. Haku palauttaa alleelit, konstruktiot, lisäykset ja saatavilla olevat varastot, ja siinä on mahdollisuus näyttää tulokset yhdistetyissä ryhmissä (kuva 1). Se myös merkitsee joitakin suosituimpia GAL4-ajureita, jotka perustuvat BDSC:ltä saatuihin varastotilaustietoihin ja siihen, kuinka monta kertaa niihin viitataan julkaisuissa (2). ”GAL4 etc”-välilehdellä on myös linkki kattavaan luetteloon näistä ”usein käytetyistä” GAL4-ajureista.

Kuva 1.

GAL4-hakutulos. Tulostaulukko hausta, joka on tehty käyttämällä ’GAL4 etc’ QuickSearch -välilehteä, kun tulostusvaihtoehto ’integrated table’ on valittu. Ristiviittauksia käytetään ryhmittelemään toisiinsa liittyviä alleeleja, konstruktioita, lisäyksiä ja kantoja yhteen. Kaksi ”usein käytettyä” GAL4-ajuria on merkitty.

Kuva 1.

GAL4-hakutulos. Tulostaulukko hausta, jossa on käytetty ’GAL4 etc’ QuickSearch -välilehteä ja valittu ’integrated table’ -tulostusvaihtoehto. Ristiviittauksia käytetään ryhmittelemään toisiinsa liittyviä alleeleja, konstruktioita, lisäyksiä ja kantoja yhteen. Kaksi ”usein käytettyä” GAL4-ajuria on merkitty.

Vaikka QuickSearchissä on useita välilehtiä erityisiä hakuja varten, useimmat ihmiset käyttävät yleistä ’Search FlyBase’-välilehteä. Ottaen huomioon tämän aloituspisteen tärkeyden olemme käyttäneet suuren osan työstämme siihen, että olemme muuttaneet ja parantaneet tämän haun palauttamia ”osumalistoja” perusteellisesti FlyBase 2.0:aa varten hyödyntäen täysin sivuston uutta arkkitehtuuria (kuva 2). Osumaluettelon tulossivun käyttöliittymäparannuksia ovat muun muassa ”responsiivinen” ulkoasu pienillä näytöillä (esim. älypuhelimilla) katselua varten, sivunumerointi latausajan lyhentämiseksi ja upotettu uusi hakulomake.

Kuva 2.

Haun tuloksen osumaluettelo. Tulossivu hakusanalla ’Mad’ hakusanalla Search FlyBase. Näyttöön tulee ’osumalista’, joka sisältää geenejä, kantoja, alleeleja ja monia muita FlyBase-tietoluokkia (joitakin ei näytetä). Mad-geenin raporttipainike on merkitty sinisellä lipukkeella, joka osoittaa uusia annotaatioita nykyisessä versiossa; lippua hiirellä liikuttamalla saadaan näkyviin yhteenveto. Luetteloa kehystää joukko työkaluja, joilla voidaan suodattaa dataluokan ja lajin mukaan, sivuttaa, tarkastella ja analysoida.

Kuva 2.

Hakutulosten osumalista. Tulossivu hakusanalla ”Mad” hakusanalla Search FlyBase. Näyttöön tulee ”osumalista”, joka sisältää geenejä, kantoja, alleeleja ja monia muita FlyBase-tietoluokkia (joitakin ei näytetä). Mad-geenin raporttipainike on merkitty sinisellä lipukkeella, joka osoittaa uusia annotaatioita nykyisessä versiossa; lippua hiirellä liikuttamalla saadaan näkyviin yhteenveto. Luetteloa kehystää joukko työkaluja, joilla voidaan suodattaa dataluokan ja lajin mukaan, sivuttaa, tarkastella ja analysoida.

Uuden osumaluettelon merkittävä piirre on se, että se on ”sekoitettu”, eli se sisältää kaikki hakusanaa vastaavat FlyBase-dataluokat. Jokainen täsmäävä kohde on paneelissa, joka sisältää tiiviin valikoiman tärkeitä tietoja (kuva 2). Oikeassa reunassa olevat värikoodatut merkit mahdollistavat kohteiden nopean skannaamisen tietoluokittain (kuva 2). Sininen lippu osoittaa, että kohteeseen on liitetty uusia tietoja viimeisimmässä FlyBase-julkaisussa (kuva 2). Painikkeet johtavat FlyBase-raportteihin, genomiselaimiin tai uusiin vastaavien kohteiden osumaluetteloihin, esimerkiksi tietyn geenin paneelissa on painikkeita, jotka koskevat siihen liittyviä alleeleja, kantoja, transkriptejä, polypeptidejä ja viitteitä (kuva 2). Kukin tietoluokkapaneeli sisältää myös luokkakohtaisia tietoja; esimerkiksi alleelipaneeli näyttää alleelin tuottamiseen käytetyn mutageenin, kaikki siihen liittyvät lisäykset ja alleeliin liitettyjen fenotyyppilausekkeiden lukumäärän.

Sekoitettua osumaluetteloa voidaan suodattaa lajeittain tai tietoluokittain (kuva 2). Lajisuodattimen avulla voit valita, haluatko sisällyttää tai sulkea pois ihmisen siirtogeenit kärpäsissä sekä muut kuin melanogaster- tai muut kuin Drosophila-tulokset. Dataluokkasuodattimet voidaan asettaa näyttämään suppeampi osumalista, joka koostuu muutamasta kiinnostavasta dataluokasta tai yhdestä dataluokasta. Rajaamalla hakutulokset yhteen ainoaan dataluokkaan saadaan käyttöön yhden luokan työkalut ja näyttövaihtoehdot. Huomaa, että useimmat QuickSearch-työkalun välilehdet luovat suoraan yhden dataluokan osumaluetteloita.

Kun osumaluettelo on suodatettu yhteen dataluokkaan, ”Taulukko”-näkymävaihtoehto tulee saataville. Table-näkymä on pystysuoraan kompakti taulukkonäyttö, jossa on kyseiselle luokalle sopivia lajiteltavia sarakkeita (kuva 3). Kun osumaluettelo sisältää yhden tietoluokan, käytettävissä on joukko analyysityökaluja. Nämä työkalut näkyvät osumaluettelosivun yläreunassa rivinä painikkeita, joissa on merkinnät ”Convert”, ”Export” ja ”Analyze” (Kuva 3). Muunna-painiketta käyttävät tietoluokkien väliset laajat ristiviittaukset, joiden avulla voit esimerkiksi muuttaa geeniluettelon toisiinsa liittyvien viitteiden luetteloksi tai alleeliluettelon toisiinsa liittyvien lisäysten luetteloksi. Export-painike vie nykyisen osumaluettelon johonkin useista FlyBase-työkaluista, kuten Batch Download tai Feature Mapper. Tämä on myös paras tapa ladata osumaluettelo FlyBase-tunnusten sarjana. Analyze-painikkeella voidaan luoda useita erilaisia lyhyitä raportteja, joissa tehdään yhteenveto osumaluettelosta, kuten anatomiatermien tai fenotyyppisten luokkien frekvenssit alleelien osumaluettelolle, tai ohjata osumaluettelo Interactions Browser -työkaluun. Näiden parannusten ansiosta osumaluettelosta on tullut tehokas työkalu FlyBase-hakutulosten tarkasteluun, tarkentamiseen ja analysointiin.

Kuva 3.

Hakutulosten osumaluettelon taulukkonäkymä. ’Mad’-hakutulossivu, joka on suodatettu alleelitietoluokkaan ja siirretty taulukkonäkymään. Export-työkaluvalikkoa on laajennettu.

Kuva 3.

Taulukkonäkymä hakutulosten osumaluettelosta. ’Hullu’ hakutulossivu, joka on suodatettu alleelitietoluokkaan ja siirretty taulukkonäkymään. Export-työkaluvalikkoa on laajennettu.

RAPORTTIEN PARANNUKSET

FlyBase-raportteihin on tehty useita merkittäviä muutoksia, jotka parantavat käytettävyyttä ja parantavat tietojen näyttämistä. Esimerkiksi kaikissa raporteissa on nyt navigointipaneeli sivun oikeassa reunassa (kuva 4). Tämä paneeli sisältää linkit kaikkiin raportin ylimmän tason osioihin, ja sitä voidaan käyttää nopeaan siirtymiseen kiinnostaviin osioihin. Kaikkien raporttien ”Viitteet”-osiota on parannettu, jotta julkaisuluetteloiden suodattaminen ja lajittelu olisi helpompaa (katso lisätietoja jäljempänä olevasta kohdasta ”Interaktiiviset viitteet ja graafiset tiivistelmät”).

Kuva 4.

FlyBase Gene Report. FlyBase Gene Report Cdk1-geenin osalta. General Information -osio toimii geenin tietojen ”superyhteenvetona”. Oikealla oleva ’Report Sections’ -valikko kelluu, kun käyttäjä selaa raporttia, ja tarjoaa näin helpon navigointivälineen. Genomic Location -osio sisältää ulkoisia linkkejä NCBI:n, Ensemblin, UCSC:n ja PopFlyn genomiselaimiin.

Kuva 4.

FlyBase Gene Report. FlyBase Gene Report Cdk1-geenin osalta. General Information -osio toimii geenin tietojen ”superyhteenvetona”. Oikealla oleva ’Report Sections’ -valikko kelluu, kun käyttäjä selaa raporttia, ja tarjoaa näin helpon navigointivälineen. Genomic Location -osio sisältää ulkoisia linkkejä NCBI:n, Ensemblin, UCSC:n ja PopFlyn genomiselaimiin.

Yhteenveto geenien toiminnallisista tiedoista on tärkeää sivustomme käyttäjille, erityisesti translaatiotutkimukseen osallistuville. Viime vuosien aikana FlyBasen geeniraporttien yläosasta ”General Information” on kehittynyt ”superyhteenveto”, joka sisältää monenlaista geenien yleistietoa (kuva 4). FlyBase 2.0:ssa tämä sisältää geenin tilannekuvan, automaattisesti luodun yhteenvedon, sen geeniryhmän kuvauksen, johon geeni kuuluu (3), UniProt-toimintatiedot, historialliset Red Book -tiedot (4) ja yhteenvedon Interactive Fly -ohjelmasta (http://www.sdbonline.org/fly/aimain/1aahome.htm) aina, kun ne ovat saatavilla. Gene Snapshots ovat käsinkirjoitettuja yhteenvetoja, jotka on pyydetty tutkijoilta, joilla on asiantuntemusta kyseisestä geenistä, ja ne antavat nopean yleiskatsauksen siitä, mitä kyseisen geenin toiminnasta tiedetään (1).

Muuten hyödyllinen yhteenveto FlyBase 2.0 Gene Reports -ohjelmassa on ”GO summary ribbon” (Kuva 5). Nämä nauhat toteutettiin aiemmin Mouse Genome Database (MGD) -tietokannassa (5), ja ne näyttävät graafisesti ylimmän tason tislauksen Gene Ontology (GO) -termeistä (6). Tässä nauhassa hyödynnetään ontologian hierarkkista rakennetta GO-kuraation tiivistämiseksi muutamaan kymmeneen korkean tason termiin, jotka sitten näytetään annotaatioiden lukumäärää osoittavilla värin voimakkuusmerkinnöillä. Tarkemmat termit näkyvät ponnahdusikkunassa, kun hiirellä osoitetaan yksittäistä solua, tai niitä voidaan tarkastella taulukkomuodossa raportin Gene Ontology -osiossa. GO-nauha parantaa merkittävästi tutkijan mahdollisuuksia arvioida nopeasti, mitä geenin toiminnasta tiedetään.

Kuva 5.

GO Summary Ribbon. D. melanogasterin Cdk1-geenin GO-yhteenvetonauha, joka on upotettu FlyBase-geeniraporttiin.

Kuva 5.

GO-yhteenvetonauha. D. melanogasterin Cdk1-geenin GO-yhteenvetonauha, sellaisena kuin se on upotettu FlyBase-geeniraporttiin.

FlyBase 2.0 -geeniraportit sisältävät nyt proteiinidomeenigrafiikat kahdesta InterPro-tietolähteestä, Pfamista ja SMARTista, jos ne ovat saatavilla (7,8). Polypeptidiraportit näyttävät tietyn isoformin domeenitiedot, kun taas geeniraportit näyttävät pisimmän isoformin. Hiiren ponnahdusikkunoissa ja taulukoissa näytetään yksityiskohtaisempia verkkotunnustietoja ja annetaan linkkejä InterPro-raportteihin. Nämä näytöt täydentävät genomiselaimissa olevia raitoja, jotka näyttävät samat tiedot linjattuina geenimalleihin (ks. alla).

KOKEILUTYÖKALUT

Yksi FlyBasen välttämättömäksi tehtäväksi on muodostunut tiedonlähde kärpäskannoista ja reagensseista kokeiden suunnittelua varten. Tämän toiminnon tärkeys korostui vuonna 2012 tehdyssä FlyBase-kyselyssä, jossa ∼90 % vastaajista sanoi, että he pitävät FlyBasea joko ”erittäin hyödyllisenä” tai että he ”eivät voisi tehdä sitä ilman FlyBasea”. Tätä varten olemme luoneet uuden ”Experimental Tool” -tietoluokan. Raportit kuvaavat työkaluja, joita käytetään geenituotteen havaitsemiseen (esim. FLAG-tunniste, EGFP), subcellulaariseen kohdentamiseen (esim. ydinalueen lokalisointisignaali, signaalisekvenssi), ilmentämiseen binäärisessä järjestelmässä (esim. UAS, GAL4) tai klonaaliseen/ehdolliseen ilmentämiseen (esim. FLP, FRT). Jokaisessa kokeellista työkalua koskevassa raportissa on kuvaus työkalusta ja sen käyttötarkoituksista sekä selattavissa olevat taulukot vastaavista siirtogeenisistä konstruktioista. Taulukoissa luetellaan konstruktiokomponentit (esim. säätelyalue, koodattu tuote), siirtogeeniset alleelit ja konstruktiot, jotka kaikki on linkitetty kantoihin, jotta tutkijat voivat helposti tunnistaa hyödyllisiä kärpäskantoja. Jotta nämä työkalut löytyisivät helpommin, ne näkyvät myös asiaankuuluvissa alleeli- ja konstruktioraporteissa, ja uusi kokeellisten työkalujen tietoluokka on lisätty interaktiivisiin osumaluetteloihin. Tämä uusi kokeellisten työkalujen dataluokka parantaa FlyBasea entisestään Drosophila-tutkimuksen tärkeänä resurssina.

MULTI-SPECIES MINING AND TRANSLATIONAL RESEARCH

FlyBase on jo useiden vuosien ajan isännöinyt dataa ja kehittänyt työkaluja, joiden avulla on voitu yksilöidä kärpäsen geenien ortologeja useissa eri organismeissa. Tähän on kuulunut OrthoDB:n (https://www.orthodb.org/, PMID:27899580) (9) ortologiatietoja ja DIOPT:n (https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) (10) meta-analyysi. FlyBasen OrthoDB:n ortologiakutsut päivitettiin vuonna 2017, ja ne sisältävät nyt monia Drosophila-lajeja, muita hyönteisiä ja monia muita lajeja. Ortologisen geenin linkkien lisäksi geeniraportit sisältävät nyt linkkejä OrthoDB-ryhmiin, joiden avulla käyttäjä voi tunnistaa ortologit jopa 5000 lajissa.

DIOPT on meta-analyysi monista eri ortologian ennustamisalgoritmeista (mukaan lukien OrthoDB), joka on hiljattain päivitetty vuonna 2018 sisällyttämällä siihen Arabidopsis thaliana ja kolme uutta ennustamisalgoritmia. FlyBase Gene Reports -ohjelmassa DIOPT- ja OrthoDB-ortologiakutsut Drosophila melanogasterin ja muiden malliorganismilajien ydinjoukon välillä yhdistetään tiiviiksi näytöksi informatiivisen yhteenvedon tuottamiseksi. Tässä osiossa näytetään myös linkit proteiinikohdistukseen ennustetun ortologin kanssa ja ilmoitetaan, täydentääkö ihmisen ortologi Drosophilaan siirrettynä toiminnallisesti kärpäsen mutanttia.

FlyBase 2.0 on kehittänyt yhteistyössä Norbert Perrimonin ja Hugo Bellenin ryhmien kanssa uusia online-työkaluja, joiden avulla voidaan etsiä ortologisten geenien toimintaa (Gene2Function;http://gene2function.org) (11), fosforylaatiokohtien ja muiden proteiinien posttranslationaalisten modifikaatioiden säilymistä (https://www.flyrnai.org/tools/iproteindb/web/) (bioRxiv https://doi.org/10.1101/310854), geenien vuorovaikutussuhteita eri organismien välillä (MIST;http://fgrtools.hms.harvard.edu/mist) (12) ja hakutyökalua, joka palauttaa monipuolista tietoa ortologeista, ihmisen genetiikasta ja sairauksista (MARRVEL;http://marrvel.org) (13). Nämä ja muut hyödylliset linkit ulkoisiin resursseihin näkyvät FlyBasen etusivun sivupalkissa kuvakkeina. Nämä ovat vain muutamia esimerkkejä siitä, miten FlyBase jatkaa yhteistyötä kolmansien osapuolten kanssa uusien työkalujen kehittämiseksi ja Drosophila-yhteisön perustavanlaatuisten löytöjen ja translaatiotutkimuksen tukemiseksi.

Viime vuosina FlyBase-konsortio on lisännyt osallistumistaan Genomiresurssien allianssiin (Alliance of Genome Resources;https://alliancegenome.org) (14). The ’Alliance’ on yhteistyö, jonka tarkoituksena on konsolidoida ja homogenisoida eri malliorganismien datan esitystapaa ja integroida se ihmisistä saatuun dataan biologisten löydösten ja translaatiotutkimuksen nopeuttamiseksi. Alliance edustaa tällä hetkellä kuuden malliorganismitietokannan (Saccharomyces Genome Database, WormBase, FlyBase, Zebrafish Information Network, Mouse Genome Database, Rat Genome Database) ja Gene Ontology (GO) -hankkeen yhteistyötä. Allianssin toiminta on osa NIH Common Fundin Big Data to Knowledge (https://commonfund.nih.gov/bd2k) -ohjelmaa, jonka tärkeä tavoite on ”Data Commonsin” (https://commonfund.nih.gov/commons) kehittäminen. Tämä Data Commons on NIH:n rahoittaman tutkimuksen tuottaman big datan säilytyspaikka, jossa on asianmukaiset API:t, joilla varmistetaan, että se on kaikkien saatavilla sellaisessa muodossa, joka on löydettävissä, käytettävissä, yhteentoimivissa ja uudelleenkäytettävissä (FAIR). Kahden viime vuoden aikana FlyBase on toimittanut suuria tietokokonaisuuksia Data Commons -tietokantaan ja kehittänyt sovellusrajapintoja niiden käytön helpottamiseksi. Data Commonsin pilottivaihe on osa NIH:n strategista datatieteen suunnitelmaahttps://www.nih.gov/news-events/news-releases/nih-releases-strategic-plan-data-science, jonka tarkoituksena on kehittää uusia menetelmiä NIH:n johdettujen tietokokonaisuuksien tallentamiseen, jakamiseen ja analysointiin pilviympäristössä. Lisätietoa näistä ohjelmista, Allianssista ja FlyBasen roolista niissä saa tuoreesta kattavasta katsauksesta (14).

VIITTEET JA GRAAFISET ABSTRAKTIT

Lähes kaikilla FlyBase-raporttisivuilla on ”Viitteet”-osio, joka sisältää luettelon julkaisuista, jotka liittyvät kyseiseen kokonaisuuteen (geeni, alleeli, insertio jne.). Tätä osiota on parannettu FlyBase 2.0:ssa interaktiivisella sivupalkilla, jonka avulla käyttäjä voi suodattaa julkaisutyypin mukaan, esim. ”tutkimusjulkaisu” tai ”katsaus” (kuva 6). Käyttäjät voivat myös lajitella vuoden tai kirjoittajan mukaan, tehdä hakuja tekstin perusteella ja viedä muokatut julkaisuluettelot erälataukseen, osumaluetteloksi tai RIS-viittauksina suosikkiviitteiden hallintaan. Geeniraportin osalta yksi kasvavista haasteista on erottaa toisistaan sellaiset artikkelit, joissa keskitytään yhteen geeniin, ja sellaiset, joissa siihen viitataan vain vähän, esimerkiksi genomin laajuisen analyysin yhtenä datapisteenä. Jotta käyttäjä voisi helpommin tunnistaa kyseisen geenin kannalta olennaisimmat julkaisut, olemme ottaneet käyttöön ”edustava julkaisu” -osion. Tämä luokka sisältää enintään 25 julkaisua, jotka FlyBase on tunnistanut kaikkein informatiivisimmiksi tietyn geenin tunnistamisen ja toiminnan kannalta. Näiden edustavien julkaisujen tunnistamiseksi kehitimme algoritmin, joka asettaa julkaisut tärkeysjärjestykseen kyseisen geenin osalta kuratoitujen tietojen määrän ja luonteen perusteella ja asettaa etusijalle erityisesti sellaiset julkaisut, joiden otsikossa tai tiivistelmässä mainitaan kyseinen geeni. Kyky tunnistaa informatiivisimmat artikkelit sadoista geenin mainitsevista artikkeleista yhdessä viittausosion muiden lajittelumahdollisuuksien kanssa alkaa ratkaista nopeasti kasvavan biologisen kirjallisuuden käsittelyyn liittyvää ongelmaa.

Kuva 6.

Interaktiivinen viittausosio. Viitteet-osio, jossa on vaihtoehtoja suodattaa julkaisutyypeittäin (vasen sivupalkki), mukaan lukien edustavat julkaisut, sekä erilaisia lajittelu-, haku- ja vientivaihtoehtoja.

Kuva 6.

Interaktiivinen Viitteet-osio. Viitteet-osio, jossa on vaihtoehtoja suodattaa julkaisutyypeittäin (vasen sivupalkki), mukaan lukien edustavat julkaisut, sekä erilaisia lajittelu-, haku- ja vientivaihtoehtoja.

Toinen tapa, jolla FlyBase pyrkii auttamaan käyttäjiä löytämään relevanttia kirjallisuutta, on ”graafisten tiivistelmien” – kuvien, jotka esittävät yhteenvedon julkaisun havainnoista, sisällyttäminen ohjelmaan, ja sen esitteli ensimmäisen kerran Cell Press muutama vuosi sitten. FlyBase on tehnyt Cell Pressin kanssa sopimuksen graafisten tiivistelmien näyttämisestä vastaavassa viiteraportissa. Näiden graafisten tiivistelmien pienoiskuvat sisältyvät myös osumaluettelon kohteiden paneeleihin, jos ne ovat saatavilla. Klikkaamalla graafista tiivistelmää käyttäjä pääsee Cell Pressin tiivistelmään ja julkaisuun.

UUDET GENOMISELAIMEN SELAIMEN RAIDAT JA SIIRTYMINEN GBrowse-selaimesta JBrowse-selaimeen

FlyBasen GBrowse-genomiselain on jo useiden vuosien ajan näyttänyt annotoidut geenimallit ja monia muita genomin ja epigenomin kartoitettuja piirteitä, jotka kaikki on esitetty erillisinä ”raitoina” (15) FlyBase-selaimelle ominaiset raidat sisältävät signaaligrafiikoita, jotka ovat peräisin eri hankkeista peräisin olevasta, kehitysajan kuluessa tapahtuvasta tai ympäristöärsykkeisiin reagoimisesta peräisin olevasta RNA-selaimen RNA-selaimesta, ja proteiinien domaineja, jotka on sovitettu yhteen RNA-tietojärjestelmään D. melanogaster-genomin vertailukantaan (1). Proteiinidomeenitietoja on parannettu uudella raidalla, joka näyttää SMARTin ennustamat domeenit, mikä täydentää aiemmin toteutettua ”Pfam”-raidetta ja tarjoaa toisen riippumattoman näkymän siitä, mitä proteiinidomeeneja geeni koodaa ja miten ne jakautuvat eksonien kesken (7,8). Geeni- ja polypeptidiraportit sisältävät myös kaavioita näistä domeeneista (ks. raporttien parannukset edellä).

Vaikka GBrowse on ollut FlyBasen genomiselainalusta monien vuosien ajan, FlyBase 2.0:n myötä olemme alkaneet siirtää genomiraitoja seuraavan sukupolven genomiselaimeen nimeltä JBrowse (16). JBrowse sisältää useita ainutlaatuisia ominaisuuksia, jotka parantavat genomien selaamisen helppoutta ja toimivuutta, kuten suurempi nopeus ja reagointikyky, konfiguroitavissa olevat raidat, saman ruudun raitojen valinta ja klikkaamalla ja vetämällä navigointi. Useimmilla FlyBase 2.0:n sivuilla, joilla on genomiselainlinkkejä, käyttäjät voivat tällä hetkellä valita GBrowse- ja JBrowse-selaimen välillä. Kun siirtyminen JBrowseen on saatu päätökseen, GBrowse poistetaan käytöstä, mutta se on edelleen käytettävissä vuoden ajan, minkä jälkeen JBrowse on ainoa FlyBasen tarjoama genomiselain. FlyBasen genomiselainten lisäksi olemme äskettäin lisänneet geeniraportin ”muut genominäkymät”-osioon linkkejä NCBI:n, Ensemblin, UCSC:n ja PopFlyn selaimiin, joilla on erilaiset annotaatiot ja toiminnot (kuva 4). Esimerkiksi PopFly-selaimessa esitetään D. melanogasterin luonnollisissa populaatioissa tunnistettuja DNA-polymorfismeja. FlyBase arvioi jatkuvasti uusia yhteisön tietokokonaisuuksia sisällytettäväksi genomiselaimiin. Tämänhetkisiin suunnitelmiin kuuluu kehitysproteomin annotaation parantaminen ja sellaisten tehokkaiden gRNA-kohteiden sijaintien lisääminen CRISPR-tekniikkaa varten, jotka Drsosophila RNAi Screening Center (DRSC) (https://fgr.hms.harvard.edu/) on ennustanut (17).

Uudet työkalut tehokäyttäjille

FlyBase 2.0:n rakentaminen toi mukanaan merkittävän muutoksen taustajärjestelmän arkkitehtuuriin, joka mahdollisti uudet ominaisuudet tehokäyttäjille. Paransimme pilviyhteensopivuutta, lisäsimme sovellusohjelmointirajapinnan (API) (https://flybase.github.io/) ja järjestimme koodin perusteellisesti uudelleen modulaarisemmaksi. Tuemme edelleen julkisesti saatavilla olevaa Chado-tietokantaa (https://flybase.github.io/) ja XML-, FASTA-, GFF-, GTF- ja muiden massadatatiedostojen lataamista FTP-sivustomme kautta (ftp://ftp.flybase.org/).

YHTEISÖN YHTEYDET

FlyBase hyötyy suuresti hyvin sitoutuneesta käyttäjäyhteisöstä. Vuodesta 2014 lähtien FlyBase-yhteisön neuvoa-antava ryhmä (FlyBase Community Advisory Group, FCAG), joka koostuu yli 500 tutkijasta eri puolilla maailmaa ja joka on sitoutunut parantamaan FlyBasea, on vastannut säännöllisiin kyselyihin ja antanut korvaamatonta tietoa siitä, miten tutkijat todellisuudessa käyttävät FlyBasea, sekä ehdotuksia uusista ominaisuuksista. Tämä palaute vaikuttaa edelleen siihen, miten FlyBase mukautuu uusiin tietoihin ja käyttäjien tarpeisiin. Tavoitteenamme on, että jokaisesta Drosophila-laboratoriosta olisi edustaja FCAG:ssä; uudet edustajat voivat rekisteröityä FlyBase Community Advisory Group -linkkiä seuraamalla FlyBasen Community-valikossa (http://flybase.org/wiki/FlyBase:Community_Advisory_Group). Toinen jatkuva pyrkimys on video-oppaiden tuottaminen, joka on kiihtynyt kahden viime vuoden aikana: YouTube-kanavalle (https://www.youtube.com/c/FlyBaseTV) on lähetetty kahdeksan uutta videota, joissa käsitellään erilaisia hakutekniikoita, FlyBase 2.0 -sivuston uusia ominaisuuksia ja JBrowsea. Uudella verkkosivustolla näkyy myös FlyBasen Twitter-syöte (https://twitter.com/FlyBaseDotOrg) etusivun vasemmassa sivupalkissa, jota käytämme varoittaaksemme käyttäjiä uusista aineistoista ja ominaisuuksista sekä kärpäsyhteisön kannalta merkityksellisistä ajankohtaisista uutisista.

NÄKYMÄT TULEVAISUUTEEN

Tulevaisuuden haasteena on pysyä perässä biologisen tiedon kiihtyvässä kasvussa, mukaan lukien uusista suurten tehokkuustehosteiden (high-throughput) menetelmistä peräisin olevan suurdatan jatkuvasti lisääntyvä määrä. Näihin uusiin menetelmiin kuuluu muun muassa yhden solun RNA-sekvensointi (RNA-Seq), jolla saadaan runsaasti hienojakoista ajallista ja alueellista tietoa geenien ilmentymisestä. Tämän menetelmän täyden potentiaalin hyödyntämiseksi on välttämätöntä kehittää uusia lähestymistapoja suuren tietomäärän integroimiseksi ja esittämiseksi interaktiivisessa muodossa, joka on sekä hyödyllinen että helppokäyttöinen. FlyBase jatkaa kehitysproteomitietojen integroimista sitä mukaa kuin niitä tulee saataville ja yhdistää ne RNA-Seq-dataan graafisten näyttöjen ja JBrowse-ohjelman avulla, jotta saadaan aikaan tehokas työkalu funktionaaliseen genomiikkaan. Tulevaisuudessa kehitetään uusia vuorovaikutteisia näyttöjä näiden geenituotteiden välisiä polkuja ja vuorovaikutusta varten, mikä lisää entisestään systeemilähestymistapaa soluverkostojen ymmärtämiseen. Suunnitelmissamme on myös muiden perustavanlaatuisesti uusien tietoluokkien integrointi. Näitä ovat muun muassa Drosophilan aineenvaihduntapolut ja mikrobiomi eli kärpäsen sisällä ja päällä olevien mikro-organismien populaatio. Koska FlyBase ja muut MOD-tietokannat on rakennettu geenikeskeisesti, näiden tietojen integrointi tuo mukanaan uusia haasteita ja edellyttää kolmansien osapuolten yhteistyötä ja linkityksiä. Kaikkiin näihin kasvavan biologisen tiedon haasteisiin vastaaminen riippuu tietenkin riittävien resurssien saatavuudesta.

FlyBase jatkaa myös aktiivisena jäsenenä Alliance of Genome Resources -järjestössä (The Alliance; https://alliancegenome.org) (14). Tähän sisältyy pyrkimyksiä tietojen homogenisoimiseksi ja uusien näyttöjen ja välineiden kehittämiseksi perustutkimusta ja translaatiotutkimusta varten. Osa näistä toimista on uusien sovellusrajapintojen luominen, joiden avulla tehokäyttäjät voivat hakea ja käsitellä NIH Data Commons -tietokantaan talletettuja suuria tietokokonaisuuksia. Nämä tulevat olemaan tärkeitä tulevia toimia, kun big datan vyöry ja bioinformatiikan merkitys biolääketieteellisessä tutkimuksessa kasvaa jatkuvasti.

Viimeisten 27 vuoden aikana FlyBase on kehittynyt yksinkertaisesta tietokannasta tehokkaaksi tietopankiksi. Sen lisäksi, että FlyBase huolehtii olennaisesta roolistaan kärpäsdatan kuratoinnissa ja levittämisessä, se kehittää jatkuvasti uusia välineitä, joilla voidaan löytää geenien toimintaa eri organismeissa ja niiden yhteyksiä ihmisten sairauksiin (18). FlyBase on edelleen olennaisen tärkeä tukemaan lukuisia kärpästutkimusyhteisölle ominaisia tietotyyppejä, jotta Drosophilan koko potentiaali biologisessa löytämisessä ja translaatiotutkimuksessa voidaan hyödyntää (19). FlyBase 2.0 -tietopohjan jatkuva rakentaminen antaa Drosophila-yhteisölle lisää mahdollisuuksia tutkia uusia ideoita, etsiä elämän uusia puolia ja mennä rohkeasti sinne, minne kukaan ei ole ennen mennyt.

LÄHTEET

Haluamme kiittää FlyBasen muita tutkijoita, kuraattoreita ja kehittäjiä käsikirjoitusta koskevista kommenteista. Erityiskiitokset kuuluvat Julie Agapitelle ja Victoria Jenkinsille heidän laajasta toimituksellisesta panoksestaan. Kirjoitushetkellä FlyBase-konsortioon kuuluivat seuraavat jäsenet: Norbert Perrimon, Susan Russo Gelbart, Julie Agapite, Kris Broll, Lynn Crosby, Gilberto dos Santos, David Emmert, L. Sian Gramates, Kathleen Falls, Victoria Jenkins, Beverley Matthews, Carol Sutherland, Christopher Tabone, Pinglei Zhou, Mark Zytkovicz, Nick Brown, Giulia Antonazzo, Helen Attrill, Phani Garapati, Alex Holmes, Aoife Larkin, Steven Marygold, Gillian Millburn, Clare Pilgrim, Vitor Trovisco, Pepe Urbano, Thomas Kaufman, Brian Calvi, Bryon Czoch, Josh Goodman, Victor Strelets, Jim Thurmond, Richard Cripps, Phillip Baker.

RAHOITUS

FlyBasea rahoittaa NIH, NHGRI ; UK Medical Research Council . Rahoitus avoimen saatavuuden maksua varten: NIH, NHGRI .

Esintressiristiriitoja koskeva lausunto. None declared.

Gramates
L.S.

,

Marygold
S.J.

,

Santos
G.D.

,

Urbano
J.M.

,

Antonazzo
G.

,

Matthews
B.B.

,

Rey
A.J.

,

Tabone
C.J.

,

Crosby
M.A.

,

Emmert
D.B.

et al.

FlyBase at 25: looking to the future

.

Nucleic Acids Res.
2017

;

45

:

D663

D671

.

Cook
K.R.

,

Parks
A.L.

,

Jacobus
L.M.

,

Kaufman
T.C.

,

Matthews
K.A.
New research resources at the bloomington drosophila stock center

.

Kärpänen

.

2010

;

4

:

88

91

.

Attrill
H.

,

Putoaa
K.

,

Goodman
J.L.

,

Millburn
G.H.

,

Antonazzo
G.

,

Rey
A.J.

,

S.J.
Marygold.
FlyBase Consortium
FlyBase: establishing a Gene Group resource for Drosophila melanogaster

.

Nucleic Acids Res.
2016

;

44

:

D786

D792

.

Lindsley
D.L.

,

Zimm
G.G.

The Genome of Drosophila Melanogaster

.

1992

;

San Diego

:

Academic Press

.

Smith
C.L.

,

Blake
J.A.

,

Kadin
J.A.

,

Richardson
J.E.

,

Bult
C.J.
Mouse Genome Database, G.
Mouse Genome Database (MGD)-2018: laboratoriohiiren tietopankki

.

Nucleic Acids Res.
2018

;

46

:

D836

D842

.

The Gene Ontology Consortium
Expansion of the gene ontology knowledgebase and resources

.

Nucleic Acids Res.
2017

;

45

:

D331

D338

.

Finn
R.D.

,

Coggill
P.

,

Eberhardt
R.Y.

,

Eddy
S.R.

,

Mistry
J.

,

Mitchell
A.L.

,

Potter
S.C.

,

Punta
M.

,

Qureshi
M.

,

Sangrador-Vegas
A.

et al.

Pfam-proteiiniperheitä sisältävä tietokanta: kohti kestävämpää tulevaisuutta

.

Nucleic Acids Res.
2016

;

44

:

D279

D285

.

Letunic
I.

,

Bork
P.

20 vuotta SMART-proteiinidomeenien annotaatioresurssia

.

Nucleic Acids Res.
2018

;

46

:

D493

D496

.

Zdobnov
E.M.

,

Tegenfeldt
F.

,

Kuznetsov
D.

,

Waterhouse
R.M.

,

Simao
F.A.

,

Ioannidis
P.

,

Seppey
M.

,

Loetscher
A.

,

Kriventseva
E.V.
OrthoDB v9.1: Luettelo eläimistä, sienistä, kasveista, arkeaeoista, bakteereista ja viruksista peräisin oleviin ortologeihin liittyvistä evoluutio- ja funktionaalisista annotaatioista

.

Nucleic Acids Res.
2017

;

45

:

D744

D749

.

Hu
Y.

,

Flockhart
I.

,

Vinayagam
A.

,

Bergwitz
C.

,

Berger
B.

,

Perrimon
N.

,

Mohr
S.E.
Integroiva lähestymistapa ortologien ennustamiseen sairauksiin keskittyviä ja muita toiminnallisia tutkimuksia varten

.

BMC Bioinformatics

.

2011

;

12

:

357

.

Hu
Y.

,

Comjean
A.

,

Mohr
S.E.

,

FlyBase
C.

,

Perrimon
N.
Gene2Function: An integrated online resource for gene function discovery

.

2017

;

7

:

2855

2858

.

Hu
Y.

,

Vinayagam
A.

,

Nand
A.

,

Comjean
A.

,

Chung
V.

,

Hao
T.

,

Mohr
S.E.

,

Perrimon
N.
Molekulaaristen vuorovaikutusten etsintätyökalu (MIST): integroitu resurssi geenien ja proteiinien vuorovaikutusdatan louhimiseen

.

Nucleic Acids Res.
2018

;

46

:

D567

D574

.

Wang
J.

,

Al-Ouran
R.

,

Hu
Y.

,

Kim
S.Y.

,

Wan
Y.W.

,

Wangler
M.F.

,

Yamamoto
S.

,

Chao
H.T.

,

Comjean
A.

,

Mohr
S.E.

ja muut

MARRVEL: Ihmisen ja malliorganismien geenivarojen integrointi ihmisen genomin funktionaalisen annotoinnin helpottamiseksi

.

Am. J. Hum. Genet.
2017

;

100

:

843

853

.

Howe
D.G.

,

Blake
J.A.

,

Bradford
Y.M.

,

Bult
C.J.

,

Calvi
B.R.

,

Engel
S.R.

,

Kadin
J.A.

,

Kaufman
T.C.

,

Kishore
R.

,

Laulederkind
S.J.F.

et al.

Model organism data evolving in support of translationaalisen lääketieteen tukena

.

Lab. Anim. (NY)

.

2018

;

47

:

277

289

.

Stein
L.D.
Using GBrowse 2.0 to visualize and share next-generation sequence data

.

Lyhyt yhteenveto. Bioinform.
2013

;

14

:

162

171

.

Buels
R.

,

Yao
E.

,

Diesh
C.M.

,

Hayes
R.D.

,

Munoz-Torres
M.

,

Helt
G.

,

Goodstein
D.M.

,

Elsik
C.G.

,

Lewis
S.E.

,

Stein
L.

et al.

JBrowse: dynaaminen verkkoalusta genomin visualisointiin ja analyysiin

.

Genome Biol.
2016

;

17

:

66

.

Mohr
S.E.

,

Hu
Y.

,

Ewen-Campen
B.

,

Housden
B.E.

,

Viswanatha
R.

,

Perrimon
N.
CRISPR-opas-RNA:n suunnittelu tutkimussovelluksiin

.

FEBS J.
2016

;

283

:

3232

3238

.

Wangler
M.F.

,

Yamamoto
S.

,

Bellen
H.J.

Puutarhakärpässiipikonnat biolääketieteellisessä tutkimuksessa

.

Genetics

.

2015

;

199

:

639

653

.

Bilder
D.

,

Irvine
K.D.

Taking stock of the Drosophila research ecosystem

.

Genetics

.

2017

;

206

:

1227

1236

.

Tekijän huomautukset

FlyBase-konsortion jäsenet on lueteltu kiitoksissa.

© The Author(s) 2018. Julkaisija: Oxford University Press on behalf of Nucleic Acids Research.
Tämä on Open Access -artikkeli, jota jaetaan Creative Commons Attribution License (http://creativecommons.org/licenses/by/4.0/) -lisenssin ehdoilla, joka sallii rajoittamattoman uudelleenkäytön, jakelun ja jäljentämisen missä tahansa välineessä edellyttäen, että alkuperäinen teos mainitaan asianmukaisesti.

Vastaa

Sähköpostiosoitettasi ei julkaista.