FlyBase 2.0: the next generation

Abstract

FlyBase (flybase.org) jest bazą wiedzy, która wspiera społeczność badaczy wykorzystujących muszkę owocową, Drosophila melanogaster, jako organizm modelowy. Zespół FlyBase gromadzi i organizuje różnorodne informacje genetyczne, molekularne, genomiczne i rozwojowe na temat Drosophila. Na początku 2018 roku, 'FlyBase 2.0′ został wydany ze znacznie ulepszonym interfejsem użytkownika i nowymi narzędziami. Wśród tych ważnych zmian jest nowa organizacja wyników wyszukiwania w interaktywne listy lub tabele (hitlists), ulepszone listy referencyjne i nowe grafiki domen białkowych. Ważna nowa klasa danych zwana „experimental tools” konsoliduje informacje na temat użytecznych szczepów much i innych zasobów związanych z konkretnym genem, co znacznie zwiększa możliwości naukowców Drosophila w zakresie projektowania i przeprowadzania eksperymentów. Wraz z wydaniem FlyBase 2.0, nastąpiła również restrukturyzacja architektury backendu i ciągły rozwój interfejsów programowania aplikacji (API) dla programowego dostępu do danych FlyBase. W tym przeglądzie opisujemy te główne nowe cechy i funkcje strony FlyBase 2.0 i jak wspierają one wykorzystanie Drosophila jako organizmu modelowego do odkryć biologicznych i badań translacyjnych.

WPROWADZENIE

FlyBase (flybase.org) jest głównym repozytorium i portalem internetowym dla danych genetycznych związanych z Drosophila melanogaster, muszką owocową. Konsorcjum FlyBase to zespół kuratorów, programistów i edukatorów w czterech miejscach: na Uniwersytecie Harvarda, Uniwersytecie w Cambridge, Uniwersytecie Indiana i Uniwersytecie w Nowym Meksyku. FlyBase zawiera dane pochodzące z podstawowej literatury naukowej obejmującej ponad sto lat badań genetycznych. Przez lata konsorcjum rozwinęło nowe formaty wyświetlania danych i nowe narzędzia bioinformatyczne, aby wydobyć te dane dla odkryć biologicznych i badań translacyjnych. Te wysiłki przekształciły FlyBase z prostej bazy danych w potężną bazę wiedzy.

Strona FlyBase przeszła poważne zmiany od czasu naszego ostatniego przeglądu dwa lata temu (1). W lutym 2017 r. wydaliśmy wersję beta strony internetowej następnej generacji, którą nazwaliśmy „FlyBase 2.0. Po okresie publicznych opinii i polerowania, FlyBase 2.0 zastąpił poprzednią stronę internetową w grudniu 2017 roku. W tym przeglądzie omówimy, co jest inne i lepsze w tej stronie internetowej następnej generacji, a także czego można się spodziewać po wizycie w nowej i ulepszonej FlyBase 2.0, teraz i w przyszłości. Chociaż skupiamy się na nowych danych i narzędziach w tym przeglądzie, nastąpiło kilka ważnych zmian w interfejsie użytkownika (UI) FlyBase 2.0. Odsyłamy zainteresowanego czytelnika do poprzedniego przeglądu NAR z 2017 r. w celu obszernego omówienia innych aspektów FlyBase (1).

QuickSearch AND HITLISTS

Statystyki użytkowania wskazują, że większość użytkowników zapytuje FlyBase poprzez „QuickSearch” na stronie głównej. W sierpniu 2017 roku, FlyBase dodał zakładkę 'GAL4 etc’ do 'QuickSearch’. To wyszukiwanie odpowiedziało na długotrwałą potrzebę łatwego do zarządzania sposobu wyszukiwania FlyBase dla GAL4 i innych sterowników binarnych, a także reporterów lacZ i GFP, używających różnych typów wzorców ekspresji. Wyszukiwarka zwraca allele, konstrukty, insercje i dostępne zasoby, a także posiada opcję wyświetlania wyników w powiązanych grupach (Rysunek 1). Wyszukiwarka wskazuje również niektóre z najbardziej popularnych sterowników GAL4 na podstawie informacji o zamówieniach magazynowych z BDSC oraz liczby odniesień do nich w publikacjach (2). Zakładka 'GAL4 etc’ zawiera również link do wyczerpującej listy tych „często używanych” sterowników GAL4.

Rysunek 1.

Wynik wyszukiwania GAL4. Tabela wyników wyszukiwania przy użyciu zakładki QuickSearch 'GAL4 etc’, z wybraną opcją wyjścia 'tabela zintegrowana’. Odsyłacze są używane do grupowania powiązanych alleli, konstruktów, insercji i zasobów razem. Dwa „często używane” sterowniki GAL4 są oznaczone.

Rysunek 1.

Wynik wyszukiwania GAL4. Tabela wyników wyszukiwania przy użyciu zakładki QuickSearch „GAL4 etc”, z wybraną opcją wyjściową „tabela zintegrowana”. Odsyłacze są używane do grupowania powiązanych alleli, konstruktów, insercji i zasobów razem. Dwa 'często używane’ sterowniki GAL4 są oznaczone.

Chociaż QuickSearch ma wiele zakładek dla specyficznych wyszukiwań, większość ludzi używa ogólnej zakładki 'Search FlyBase’. Biorąc pod uwagę znaczenie tego punktu wejścia, poświęciliśmy wiele naszego wysiłku, aby fundamentalnie zmienić i poprawić „listy trafień” zwrócone przez to wyszukiwanie dla FlyBase 2.0, w pełni wykorzystując nową architekturę strony (Rysunek 2). Ulepszenia UI strony wyników listy trafień obejmują „responsywny” układ do przeglądania na małych ekranach (np. smartfony), paginację w celu skrócenia czasu ładowania i wbudowany nowy formularz wyszukiwania.

Rysunek 2.

Lista wyników wyszukiwania. Strona wyników wyszukiwania FlyBase z użyciem 'Mad’ jako wyszukiwanego hasła. Wyświetlana jest „lista trafień” zawierająca geny, stada, allele i wiele innych klas elementów danych FlyBase (niektóre nie pokazane). Przycisk raportu genów Mad jest oznaczony niebieską flagą, wskazującą nowe adnotacje w aktualnym wydaniu; najechanie myszką na flagę pokazuje podsumowanie. Lista jest obramowana szeregiem narzędzi do filtrowania według klasy danych i gatunków, paginacji, przeglądania i analizy.

Rysunek 2.

Lista wyników wyszukiwania. Strona wyników wyszukiwania FlyBase z użyciem 'Mad’ jako wyszukiwanego hasła. Wyświetlana jest „lista trafień” zawierająca geny, stada, allele i wiele innych klas elementów danych FlyBase (niektóre nie pokazane). Przycisk raportu genów Mad jest oznaczony niebieską flagą, wskazującą nowe adnotacje w aktualnym wydaniu; najechanie myszką na flagę pokazuje podsumowanie. Lista jest obramowana szeregiem narzędzi do filtrowania według klas danych i gatunków, paginacji, przeglądania i analizy.

Ważną cechą nowej listy trafień jest to, że jest ona „mieszana”, czyli zawiera wszystkie klasy danych FlyBase pasujące do wyszukiwanego terminu. Każda pasująca pozycja znajduje się w panelu, zawierającym zwięzły wybór ważnych informacji (Rysunek 2). Kolorowe plakietki wzdłuż prawego marginesu pozwalają na szybkie skanowanie pozycji według klasy danych (Rysunek 2). Niebieska flaga wskazuje, że nowe dane zostały dołączone do elementu w najnowszej wersji FlyBase (Rysunek 2). Przyciski odsyłają do raportów FlyBase, przeglądarek genomów lub nowych list trafień powiązanych elementów, np. panel dla danego genu będzie zawierał przyciski dla powiązanych alleli, zasobów, transkryptów, polipeptydów i referencji (Rysunek 2). Każdy panel klasy danych zawiera również informacje specyficzne dla danej klasy; na przykład panel alleli wyświetli mutagen użyty do wygenerowania allelu, wszelkie powiązane insercje oraz liczbę deklaracji fenotypu dołączonych do allelu.

Mieszana lista trafień może być filtrowana według gatunku lub klasy danych (Rysunek 2). Filtr gatunkowy pozwala wybrać, czy włączyć/wykluczyć ludzkie transgeny w muszkach, jak również wyniki nie-melanogaster lub nie-Drosophila. Filtry klas danych mogą być ustawione tak, aby wyświetlić węższą listę trafień, składającą się z kilku interesujących nas klas danych lub pojedynczej klasy danych. Zawężenie wyników wyszukiwania do pojedynczej klasy danych odblokowuje narzędzia i opcje wyświetlania pojedynczej klasy. Należy zauważyć, że większość zakładek w narzędziu QuickSearch generuje bezpośrednio listy trafień dla pojedynczych klas danych.

Gdy lista trafień jest filtrowana do pojedynczej klasy danych, dostępna jest opcja widoku „Tabela”. Widok tabeli jest pionowo zwartą tabelaryczną prezentacją, z sortowalnymi kolumnami odpowiednimi dla danej klasy (Rysunek 3). Zestaw narzędzi analitycznych staje się dostępny, gdy lista trafień obejmuje pojedynczą klasę danych. Narzędzia te pojawiają się w górnej części strony listy trafień w postaci szeregu przycisków oznaczonych jako „Konwertuj”, „Eksportuj” i „Analizuj” (Rysunek 3). Przycisk „Convert” jest zasilany przez obszerne powiązania między klasami danych, co pozwala na przykład przekształcić listę genów w listę powiązanych referencji lub listę alleli w listę powiązanych insercji. Przycisk Eksportuj przenosi aktualną listę trafień do jednego z kilku narzędzi FlyBase, takich jak Batch Download lub Feature Mapper. Jest to również najlepszy sposób, aby pobrać listę trafień jako zestaw identyfikatorów FlyBase. Przycisk Analizuj może wygenerować kilka rodzajów krótkich raportów podsumowujących listę trafień, takich jak częstotliwość terminów anatomicznych lub klas fenotypowych dla listy trafień alleli, lub może skierować listę trafień do narzędzia Interactions Browser. Dzięki tym udoskonaleniom, lista trafień stała się potężnym narzędziem do przeglądania, udoskonalania i analizowania wyników wyszukiwania FlyBase.

Rysunek 3.

Widok tabeli z listą trafień wyników wyszukiwania. Strona z wynikami wyszukiwania 'Mad’, przefiltrowana do klasy danych Allele i przełączona do widoku tabeli. Menu narzędzia Eksport zostało rozszerzone.

Rysunek 3.

Widok tabelaryczny listy wyników wyszukiwania. Strona wyników wyszukiwania 'Mad’, przefiltrowana do klasy danych Allele i przełączona do widoku tabeli. Menu narzędzia Eksport zostało rozszerzone.

WPROWADZENIE RAPORTÓW

Zostało wprowadzonych kilka znaczących zmian do raportów FlyBase, które poprawiają użyteczność i poprawiają wyświetlanie danych. Na przykład, wszystkie raporty zawierają teraz panel nawigacyjny po prawej stronie strony (Rysunek 4). Panel ten zawiera linki do wszystkich sekcji najwyższego poziomu w raporcie i może być używany do szybkiego przechodzenia do interesujących nas sekcji. Sekcja „Referencje” we wszystkich raportach została ulepszona, aby ułatwić filtrowanie i sortowanie list publikacji (patrz sekcja „Interaktywne referencje i abstrakty graficzne” poniżej, aby uzyskać więcej informacji).

Rysunek 4.

FlyBase Gene Report. Raport FlyBase Gene Report dla genu Cdk1. Sekcja „Informacje ogólne” służy jako „super-podsumowanie” informacji o genie. Menu 'Report Sections’ po prawej stronie unosi się, gdy użytkownik przewija raport, zapewniając łatwe narzędzie nawigacji. Sekcja Genomic Location zawiera zewnętrzne linki do przeglądarek genomów w NCBI, Ensembl, UCSC i PopFly.

Rysunek 4.

FlyBase Gene Report. Raport FlyBase Gene Report dla genu Cdk1. Sekcja „Informacje ogólne” służy jako „super-podsumowanie” informacji o genie. Menu 'Report Sections’ po prawej stronie unosi się, gdy użytkownik przewija raport, zapewniając łatwe narzędzie nawigacji. Sekcja Genomic Location zawiera zewnętrzne linki do przeglądarek genomowych w NCBI, Ensembl, UCSC i PopFly.

Podsumowanie informacji funkcjonalnych dla genów jest ważne dla użytkowników naszej strony, szczególnie tych zaangażowanych w badania translacyjne. W ciągu ostatnich kilku lat, górna sekcja „Informacje ogólne” raportów genowych FlyBase ewoluowała w „super-podsumowanie”, obejmujące szeroki zakres danych przeglądowych o genach (Ryc. 4). W FlyBase 2.0 obejmuje to „Migawkę genu”, automatycznie wygenerowane podsumowanie, opis grupy genów, do której gen należy (3), dane funkcji UniProt, historyczne informacje Red Book (4) i podsumowanie z Interactive Fly (http://www.sdbonline.org/fly/aimain/1aahome.htm), gdy tylko są one dostępne. Gene Snapshots są ręcznie pisanymi podsumowaniami, które są pozyskiwane od naukowców z doświadczeniem w tym genie i zapewniają szybki przegląd tego, co wiadomo o funkcji tego genu (1).

Innym użytecznym podsumowaniem w raportach genów FlyBase 2.0 jest „wstążka podsumowania GO” (Ryc. 5). Wstążki te zostały wcześniej zaimplementowane w Mouse Genome Database (MGD) (5), i graficznie wyświetlają destylację najwyższego poziomu terminów Gene Ontology (GO) (6). Ta wstążka wykorzystuje hierarchiczną strukturę ontologii, aby skondensować kuratelę GO do kilkudziesięciu terminów wysokiego poziomu, które są następnie wyświetlane z kolorowymi chipami intensywności wskazującymi liczbę adnotacji. Bardziej szczegółowe terminy są wyświetlane jako popup przez najechanie myszką na pojedynczą komórkę, lub mogą być przeglądane w formie tabelarycznej w sekcji Gene Ontology raportu. Wstążka GO znacznie zwiększa zdolność badacza do szybkiej oceny tego, co wiadomo o funkcji genu.

Rysunek 5.

Wstążka podsumowująca GO. Wstążka podsumowująca GO dla genu Cdk1 u D. melanogaster, osadzona w raporcie FlyBase Gene Report.

Ryc. 5.

Wstążka podsumowująca GO. Wstążka podsumowująca GO dla genu Cdk1 D. melanogaster, osadzona w raporcie FlyBase Gene Report.

Raporty Gene Reports FlyBase 2.0 zawierają teraz grafikę domen białkowych z dwóch źródeł danych InterPro, Pfam i SMART, jeśli są dostępne (7,8). Raporty polipeptydowe wyświetlają informacje o domenie dla konkretnej izoformy, podczas gdy raporty genowe wyświetlają najdłuższą izoformę. Wyskakujące okienka myszy i tabele pokazują bardziej szczegółowe dane o domenach i zawierają linki do raportów InterPro. Wyświetlacze te uzupełniają ścieżki w przeglądarkach genomu pokazujące te same dane wyrównane do modeli genów (patrz poniżej).

NARZĘDZIA EKSPERYMENTALNE

Jedną z niezbędnych funkcji FlyBase jest źródło informacji o szczepach much i odczynnikach do projektowania eksperymentów. Znaczenie tej funkcji zostało podkreślone w ankiecie FlyBase z 2012 roku, gdzie ∼90% respondentów stwierdziło, że albo uważają FlyBase za „bardzo pomocny” albo „nie mogliby tego zrobić bez FlyBase. W tym celu stworzyliśmy nową klasę danych 'Experimental Tool’. Raporty opisują narzędzia używane do wykrywania produktów genowych (np. tag FLAG, EGFP), kierowania subkomórkowego (np. sygnał lokalizacji jądrowej, sekwencja sygnałowa), ekspresji w systemie binarnym (np. UAS, GAL4), lub ekspresji klonalnej/kondycjonalnej (np. FLP, FRT). Każdy raport z narzędzia eksperymentalnego zawiera opis narzędzia i jego zastosowania, wraz z tabelami powiązanych konstrukcji transgenicznych, które można przeglądać. Tabele te zawierają listę komponentów konstruktu (np. region regulatorowy, kodowany produkt), allele transgeniczne i konstrukty, wszystkie połączone z zasobami, tak aby badacze mogli łatwo zidentyfikować użyteczne szczepy much. Aby łatwiej znaleźć te narzędzia, są one również wyświetlane na odpowiednich raportach alleli i konstruktów, a nowa klasa danych narzędzi eksperymentalnych została dodana do interaktywnych list trafień. Ta nowa klasa danych narzędzi eksperymentalnych jeszcze bardziej wzmacnia FlyBase jako ważny zasób dla badań nad Drosophila.

MULTI-SPECIES MINING AND TRANSLATIONAL RESEARCH

Przez wiele lat FlyBase hostował dane i rozwijał narzędzia do identyfikacji ortologów genów muchy w wielu organizmach. Obejmowało to dane ortologiczne z OrthoDB (https://www.orthodb.org/, PMID:27899580) (9) i metaanalizę z DIOPT (https://www.flyrnai.org/cgi-bin/DRSC_orthologs.pl) (10). Wywołania ortologii OrthoDB we FlyBase zostały zaktualizowane w 2017 roku i obecnie obejmują wiele gatunków Drosophila, inne owady i wiele innych gatunków. Oprócz linków do ortologicznego genu, Gene Reports zawierają teraz linki do grup OrthoDB, co pozwala użytkownikowi na identyfikację ortologów nawet u 5000 gatunków.

DIOPT to metaanaliza wielu różnych algorytmów przewidywania ortologii (w tym OrthoDB), ostatnio zaktualizowana w 2018 r., aby uwzględnić Arabidopsis thaliana i trzy nowe algorytmy przewidywania. W raportach FlyBase Gene Reports, połączenia ortologiczne DIOPT i OrthoDB między Drosophila melanogaster a podstawowym zestawem innych gatunków organizmów modelowych są agregowane w kompaktowy wyświetlacz, aby uzyskać informacyjne podsumowanie. Ta sekcja wyświetla również linki do wyrównania białek z przewidywanym ortologiem i wskazuje, czy ludzki ortolog, po przeniesieniu do Drosophila, funkcjonalnie uzupełnia mutanta muchy.

FlyBase 2.0 współpracuje z grupami Norberta Perrimona i Hugo Bellena w celu opracowania nowych narzędzi online, które umożliwiają wyszukiwanie funkcji ortologicznych genów (Gene2Function;http://gene2function.org) (11), konserwację miejsc fosforylacji i innych modyfikacji potranslacyjnych białek (https://www.flyrnai.org/tools/iproteindb/web/) (bioRxiv https://doi.org/10.1101/310854), interakcje genów w różnych organizmach (MIST;http://fgrtools.hms.harvard.edu/mist) (12) oraz narzędzie do wyszukiwania, które zwraca różnorodne informacje o ortologach, genetyce człowieka i chorobach (MARRVEL;http://marrvel.org) (13). Te i inne przydatne linki do zewnętrznych zasobów są wyświetlane jako ikony na pasku bocznym strony głównej FlyBase. To tylko kilka przykładów na to, jak FlyBase kontynuuje współpracę z osobami trzecimi w celu opracowania nowych narzędzi i wspierania społeczności Drosophila w jej podstawowych odkryciach i badaniach translacyjnych.

W ciągu ostatnich kilku lat, konsorcjum FlyBase zwiększyło swój udział w The Alliance of Genome Resources (The Alliance;https://alliancegenome.org) (14). Sojusz” to współpraca mająca na celu konsolidację i ujednolicenie danych prezentowanych przez różne organizmy modelowe oraz zintegrowanie ich z danymi pochodzącymi od ludzi, w celu przyspieszenia odkryć biologicznych i badań translacyjnych. Alliance reprezentuje obecnie współpracę sześciu baz danych organizmów modelowych (Saccharomyces Genome Database, WormBase, FlyBase, Zebrafish Information Network, Mouse Genome Database, Rat Genome Database) oraz projektu Gene Ontology (GO). Działania Sojuszu są częścią programu NIH Common Fund’s Big Data to Knowledge (https://commonfund.nih.gov/bd2k), którego ważnym celem jest rozwój „Data Commons” (https://commonfund.nih.gov/commons). Data Commons będzie repozytorium dla dużych danych generowanych przez badania finansowane przez NIH, z odpowiednimi interfejsami API, które zapewnią, że będą one dostępne dla wszystkich w formacie, który jest możliwy do znalezienia, dostępny, interoperacyjny i wielokrotnego użytku (FAIR). W ciągu ostatnich dwóch lat, FlyBase dostarczyła duże zbiory danych do Data Commons i opracowała API, aby ułatwić ich wykorzystanie. Faza pilotażowa Data Commons jest częścią strategicznego planu NIH dla Data Sciencehttps://www.nih.gov/news-events/news-releases/nih-releases-strategic-plan-data-science, którego celem jest opracowanie nowych metod przechowywania, udostępniania i analizowania zbiorów danych pochodzących z NIH w środowisku chmury. Aby uzyskać więcej informacji na temat tych programów, Sojuszu i roli FlyBase w nich, odsyłamy czytelnika do niedawnego obszernego przeglądu (14).

INTERAKTYWNE REFERENCJE I ABSTRAKTY GRAFICZNE

Niemal wszystkie strony raportów FlyBase mają sekcję 'Referencje’, która zawiera listę publikacji związanych z daną jednostką (gen, allel, insercja, itp.). Ta sekcja została wzbogacona w FlyBase 2.0 o interaktywny pasek boczny, który pozwala użytkownikowi na filtrowanie według typu publikacji, np. „praca naukowa” lub „recenzja” (Ryc. 6). Użytkownicy mogą również sortować według roku lub autora, wyszukiwać według tekstu i eksportować edytowane listy publikacji do Batch Download, jako HitList lub jako cytaty RIS dla ich ulubionego menedżera referencyjnego. W przypadku Gene Report, jednym z największych wyzwań jest odróżnienie prac, które koncentrują się na danym genie od tych, które tylko w niewielkim stopniu odnoszą się do tego genu, np. jako jednego z punktów danych w analizie całego genomu. Aby ułatwić użytkownikowi identyfikację prac najbardziej związanych z danym genem, wprowadziliśmy sekcję „reprezentatywne publikacje”. Ta kategoria zawiera do 25 artykułów, które FlyBase zidentyfikował jako najbardziej informacyjne w odniesieniu do identyfikacji i funkcji danego genu. Aby zidentyfikować te reprezentatywne publikacje, opracowaliśmy algorytm, który szereguje prace według istotności, w oparciu o ilość i charakter danych kuratorskich dla danego genu, szczególnie priorytetowo traktując prace, które wspominają gen w tytule lub abstrakcie. Zdolność do identyfikacji najbardziej informacyjnych artykułów spośród setek, które wspominają o danym genie, wraz z innymi możliwościami sortowania w sekcji referencji, zaczyna rozwiązywać problem radzenia sobie z szybko rosnącą literaturą biologiczną.

Rysunek 6.

Interaktywna sekcja referencji. Sekcja referencji z opcjami filtrowania według typów publikacji (lewy pasek boczny), w tym publikacji reprezentatywnych, oraz różnymi opcjami sortowania, wyszukiwania i eksportu.

Rys. 6.

Interaktywna sekcja referencji. Sekcja referencji z opcjami filtrowania według typów publikacji (lewy pasek), w tym reprezentatywnych publikacji, oraz różne opcje sortowania, wyszukiwania i eksportu.

Innym sposobem, że FlyBase stara się pomóc użytkownikom w znalezieniu odpowiedniej literatury jest włączenie „abstraktów graficznych” – obrazów, które podsumowują wyniki pracy, po raz pierwszy wprowadzone przez Cell Press kilka lat temu. FlyBase zawarł umowę z Cell Press na wyświetlanie abstraktów graficznych w odpowiednim raporcie referencyjnym. Miniatury tych graficznych abstraktów są również zawarte w panelach dla pozycji listy trafień, jeśli są dostępne. Kliknięcie na abstrakt graficzny kieruje użytkownika do abstraktu i pracy w Cell Press.

NEW GENOME BROWSER TRACKS AND MIGRATION FROM GBrowse To JBrowse

Przez kilka lat przeglądarka genomu GBrowse we FlyBase wyświetlała modele genów z adnotacjami i wiele innych zmapowanych cech genomu i epigenomu, wszystkie pokazane jako oddzielne „ścieżki” (15) Ścieżki unikalne dla FlyBase obejmują wykresy sygnałowe RNA-Seq z różnych projektów w czasie rozwoju lub w odpowiedzi na bodźce środowiskowe i domeny białkowe wyrównane do szczepu referencyjnego D. melanogaster (1). Informacje o domenach białkowych zostały wzbogacone o nową ścieżkę, która pokazuje domeny przewidywane przez SMART, uzupełniając wcześniej wprowadzoną ścieżkę „Pfam” i zapewniając drugi niezależny widok tego, które domeny białkowe są kodowane przez gen i jak są one rozmieszczone wśród eksonów (7,8). Raporty genów i polipeptydów zawierają również schematy tych domen (zobacz ulepszenia raportów, powyżej).

While GBrowse był platformą przeglądarki genomu FlyBase przez wiele lat, z FlyBase 2.0 zaczęliśmy migrować ścieżki genomu do przeglądarki genomu następnej generacji zwanej JBrowse (16). JBrowse ma wiele unikalnych cech, które poprawiają łatwość i funkcjonalność przeglądania genomów, takich jak większa szybkość i responsywność, konfigurowalne ścieżki, wybór ścieżek na tym samym ekranie oraz nawigacja typu „kliknij i przeciągnij”. Większość stron z linkami do przeglądarki genomów w FlyBase 2.0 obecnie pozwala użytkownikom na wybór pomiędzy GBrowse i JBrowse. Po zakończeniu migracji do JBrowse, GBrowse będzie przestarzałe, ale nadal dostępne przez rok, po czym JBrowse będzie jedyną przeglądarką genomową hostowaną przez FlyBase. Oprócz przeglądarek genomowych na FlyBase, ostatnio dodaliśmy linki w sekcji „inne widoki genomu” w Raporcie Genów do przeglądarek w NCBI, Ensembl, UCSC i PopFly, które mają różne adnotacje i funkcje (Rysunek 4). Na przykład, przeglądarka PopFly przedstawia polimorfizmy DNA zidentyfikowane w naturalnych populacjach D. melanogaster. FlyBase nieustannie ocenia nowe zestawy danych społecznościowych do włączenia do naszych przeglądarek genomowych. Obecne plany obejmują ulepszenie anotacji proteomu rozwojowego i dodanie lokalizacji efektywnych miejsc docelowych gRNA dla inżynierii CRISPR, które zostały przewidziane przez Drsosophila RNAi Screening Center (DRSC) (https://fgr.hms.harvard.edu/) (17).

NEW TOOLS FOR POWER USERS

Budowa FlyBase 2.0 pociągnęła za sobą znaczącą zmianę architektury backendu, która umożliwiła nowe możliwości dla „zaawansowanych użytkowników”. Poprawiliśmy kompatybilność z chmurą, dodaliśmy interfejs programowania aplikacji (API) (https://flybase.github.io/) i zasadniczo zreorganizowaliśmy kod, aby miał bardziej modułową strukturę. Nadal wspieramy publicznie dostępną bazę danych Chado (https://flybase.github.io/) i pobieranie plików XML, FASTA, GFF, GTF i innych plików danych masowych przez naszą stronę FTP (ftp://ftp.flybase.org/).

PODŁĄCZENIA DO SPOŁECZNOŚCI

FlyBase bardzo korzysta z dobrze zaangażowanej społeczności użytkowników. Od 2014 roku, FlyBase Community Advisory Group (FCAG), grupa ponad 500 naukowców z całego świata zaangażowanych w ulepszanie FlyBase, odpowiedziała na regularne ankiety z bezcennymi informacjami o tym, jak naukowcy faktycznie używają FlyBase, oraz sugestiami dotyczącymi nowych możliwości. Te informacje zwrotne wciąż kształtują sposób w jaki FlyBase dostosowuje się do nowych danych i potrzeb użytkowników. Naszym celem jest posiadanie przedstawiciela w FCAG z każdego laboratorium Drosophila; nowi przedstawiciele mogą się zarejestrować poprzez link FlyBase Community Advisory Group w menu Community na FlyBase (http://flybase.org/wiki/FlyBase:Community_Advisory_Group). Innym stałym wysiłkiem jest produkcja tutoriali wideo, która przyspieszyła w ciągu ostatnich dwóch lat z ośmioma nowymi filmami umieszczonymi na naszym kanale YouTube (https://www.youtube.com/c/FlyBaseTV), obejmującymi różne techniki wyszukiwania, nowe funkcje strony FlyBase 2.0 i JBrowse. Nowa strona internetowa wyświetla również kanał FlyBase Twitter (https://twitter.com/FlyBaseDotOrg) na lewym pasku strony głównej, którego używamy do ostrzegania użytkowników o nowych danych i funkcjach oraz o aktualnych wiadomościach istotnych dla społeczności muchowej.

SPOJRZENIE W PRZYSZŁOŚĆ

Przyszłym wyzwaniem będzie nadążanie za przyspieszającym wzrostem informacji biologicznej, w tym stale rosnącą ilością big data z nowych metod o wysokiej wydajności. Wśród tych nowych metod znajduje się sekwencjonowanie RNA pojedynczych komórek (RNA-Seq), które pozwala na uzyskanie dużej ilości informacji o ekspresji genów w czasie i przestrzeni. Aby w pełni wykorzystać potencjał tej metody, konieczne będzie opracowanie nowego podejścia do integracji i wyświetlania dużej ilości danych w interaktywnym formacie, który jest zarówno użyteczny jak i łatwy w użyciu. FlyBase będzie kontynuować integrację danych proteomów rozwojowych, gdy staną się one dostępne, oraz integrację z danymi RNA-Seq poprzez graficzne wyświetlacze i JBrowse, aby stworzyć potężne narzędzie dla genomiki funkcjonalnej. Przyszły rozwój nowych interaktywnych wyświetlaczy dla ścieżek i interakcji pomiędzy tymi produktami genowymi będzie dalej wzmacniał systemowe podejście do zrozumienia sieci komórkowych. Przewidujemy również integrację innych fundamentalnie nowych klas danych. Wśród nich są szlaki metaboliczne Drosophila i mikrobiom, populacja mikroorganizmów w i na muszce. Biorąc pod uwagę, że konstrukcja FlyBase i innych MOD była skoncentrowana na genach, integracja tych danych będzie stanowić nowe wyzwania i będzie wymagać współpracy z osobami trzecimi i link-outs. Oczywiście, spełnienie wszystkich tych wyzwań związanych z rosnącą informacją biologiczną będzie zależało od dostępności wystarczających zasobów.

FlyBase będzie również kontynuował jako aktywny członek Alliance of Genome Resources (The Alliance; https://alliancegenome.org) (14). Będzie to obejmować wysiłki mające na celu ujednolicenie danych i opracowanie nowych wyświetlaczy i narzędzi do badań założycielskich i translacyjnych. Częścią tych wysiłków będzie stworzenie nowych interfejsów API, które pozwolą zaawansowanym użytkownikom na pobieranie dużych zbiorów danych zdeponowanych w NIH Data Commons i pracę z nimi. Będą to ważne przyszłe wysiłki, ponieważ torrent dużych danych i znaczenie bioinformatyki dla badań biomedycznych nadal rośnie.

W ciągu ostatnich 27 lat FlyBase ewoluował z prostej bazy danych w potężną bazę wiedzy. Oprócz swojej zasadniczej roli polegającej na gromadzeniu i rozpowszechnianiu danych o muchach, FlyBase kontynuuje rozwój nowych narzędzi do odkrywania funkcji genów w różnych organizmach i ich powiązań z chorobami człowieka (18). FlyBase pozostaje niezbędna do wspierania licznych typów danych specyficznych dla społeczności badaczy much, tak aby można było w pełni wykorzystać potencjał Drosophila do odkryć biologicznych i badań translacyjnych (19). Kontynuacja rozbudowy bazy wiedzy FlyBase 2.0 umożliwi społeczności Drosophila eksplorację nowych pomysłów, poszukiwanie nowych aspektów życia i odważne podążanie tam, gdzie nikt jeszcze nie dotarł.

PODZIĘKOWANIA

Chcielibyśmy podziękować pozostałym PI, kuratorom i twórcom FlyBase za ich komentarze do manuskryptu. Specjalne podziękowania kierujemy do Julie Agapite i Victorii Jenkins za ich obszerny wkład redakcyjny. W czasie pisania artykułu, członkami Konsorcjum FlyBase byli: Norbert Perrimon, Susan Russo Gelbart, Julie Agapite, Kris Broll, Lynn Crosby, Gilberto dos Santos, David Emmert, L. Sian Gramates, Kathleen Falls, Victoria Jenkins, Beverley Matthews, Carol Sutherland, Christopher Tabone, Pinglei Zhou, Mark Zytkovicz, Nick Brown, Giulia Antonazzo, Helen Attrill, Phani Garapati, Alex Holmes, Aoife Larkin, Steven Marygold, Gillian Millburn, Clare Pilgrim, Vitor Trovisco, Pepe Urbano, Thomas Kaufman, Brian Calvi, Bryon Czoch, Josh Goodman, Victor Strelets, Jim Thurmond, Richard Cripps, Phillip Baker.

FUNDOWANIE

FlyBase jest finansowany przez NIH, NHGRI ; UK Medical Research Council . Finansowanie opłaty za otwarty dostęp: NIH, NHGRI .

Oświadczenie o konflikcie interesów. None declared.

Gramaty
L.S.

,

Marygold
S.J.

,

Santos
G.D.

,

Urbano
J.M.

,

Antonazzo
G.

,

Matthews
B.B.

,

Rey
A.J.

,

Tabone
C.J.

,

Crosby
M.A.

,

Emmert
D.B.

et al.

FlyBase at 25: looking to the future

.

Nucleic Acids Res.
2017

;

45

:

D663

D671

.

Cook
K.R.

,

Parks
A.L.

,

Jacobus
L.M.

,

Kaufman
T.C.

,

Matthews
K.A.
Nowe zasoby badawcze w bloomington drosophila stock center

.

Fly

.

2010

;

4

:

88

91

.

Attrill
H.

,

Upadek
K.

,

Goodman
J.L.

,

Millburn
G.H.

,

Antonazzo
G.

,

Rey
A.J.

,

S.J.
Marygold.
FlyBase Consortium
FlyBase: establishing a Gene Group resource for Drosophila melanogaster

.

Nucleic Acids Res.
2016

;

44

:

D786

D792

.

Lindsley
D.L.

,

Zimm
G.G.
The Genome of Drosophila Melanogaster

.

1992

;

San Diego

:

Academic Press

.

Smith
C.L.

,

Blake
J.A.

,

Kadin
J.A.

,

Richardson
J.E.

,

Bult
C.J.
Mouse Genome Database, G.
Mouse Genome Database (MGD)-2018: knowledgebase for the laboratory mouse

.

Nucleic Acids Res.
2018

;

46

:

D836

D842

.

The Gene Ontology Consortium
Rozbudowa bazy wiedzy i zasobów ontologii genów

.

Nucleic Acids Res.
2017

;

45

:

D331

D338

.

Finn
R.D.

,

Coggill
P.

,

Eberhardt
R.Y.

,

Eddy
S.R.

,

Mistry
J.

,

Mitchell
A.L.

,

Potter
S.C.

,

Punta
M.

,

Qureshi
M.

,

Sangrador-Vegas
A.

et al.

The Pfam protein families database: towards a more sustainable future

.

Nucleic Acids Res.
2016

;

44

:

D279

D285

.

Letunic
I.

,

Bork
P.
20 lat zasobu anotacji domen białkowych SMART

.

Nucleic Acids Res.
2018

;

46

:

D493

D496

.

Zdobnov
E.M.

,

Tegenfeldt
F.

,

Kuzniecow
D.

,

Waterhouse
R.M.

,

Simao
F.A.

,

Ioannidis
P.

,

Seppey
M.

,

Loetscher
A.

,

Kriventseva
E.V.
OrthoDB v9.1: cataloging evolutionary and functional annotations for animal, fungal, plant, archaeal, bacterial and viral orthologs

.

Nucleic Acids Res.
2017

;

45

:

D744

D749

.

Hu
Y.

,

Flockhart
I.

,

Vinayagam
A.

,

Bergwitz
C.

,

Berger
B.

,

Perrimon
N.

,

Mohr
S.E.
An integrative approach to ortholog prediction for disease-focused and other functional studies

.

BMC Bioinformatics

.

2011

;

12

:

357

.

Hu
Y.

,

Comjean
A.

,

Mohr
S.E.

,

FlyBase
C.

,

Perrimon
N.
Gene2Function: An integrated online resource for gene function discovery

.

2017

;

7

:

2855

2858

.

Hu
Y.

,

Vinayagam
A.

,

Nand
A.

,

Comjean
A.

,

Chung
V.

,

Hao
T.

,

Mohr
S.E.

,

Perrimon
N.
Molecular Interaction Search Tool (MIST): an integrated resource for mining gene and protein interaction data

.

Nucleic Acids Res.
2018

;

46

:

D567

D574

.

Wang
J.

,

Al-Ouran
R.

,

Hu
Y.

,

Kim
S.Y.

,

Wan
Y.W.

,

Wangler
M.F.

,

Yamoto
S.

,

Chao
H.T.

,

Comjean
A.

,

Mohr
S.E.

et al.

MARRVEL: Integration of human and model organism genetic resources to facilitate functional annotation of the human genome

.

Am. J. Hum. Genet.
2017

;

100

:

843

853

.

Howe
D.G.

,

Blake
J.A.

,

Bradford
Y.M.

,

Bult
C.J.

,

Calvi
B.R.

,

Engel
S.R.

,

Kadin
J.A.

,

Kaufman
T.C.

,

Kishore
R.

,

Laulederkind
S.J.F.

et al.

Model organism data evolving in support of translational medicine

.

Lab. Anim. (NY)

.

2018

;

47

:

277

289

.

Stein
L.D.
Usługiwanie GBrowse 2.0 do wizualizacji i udostępniania danych sekwencji następnej generacji

.

Brief. Bioinform.
2013

;

14

:

162

171

.

Buels
R.

,

Yao
E.

,

Diesh
C.M.

,

Hayes
R.D.

,

Munoz-Torres
M.

,

Helt
G.

,

Goodstein
D.M.

,

Elsik
C.G.

,

Lewis
S.E.

,

Stein
L.

et al.

JBrowse: a dynamic web platform for genome visualization and analysis

.

Genome Biol.
2016

;

17

:

66

.

Mohr
S.E.

,

Hu
Y.

,

Ewen-Campen
B.

,

Housden
B.E.

,

Viswanatha
R.

,

Perrimon
N.
CRISPR guide RNA design for research applications

.

FEBS J.
2016

;

283

:

3232

3238

.

Wangler
M.F.

,

Yamoto
S.

,

Bellen
H.J.
Muchy owocowe w badaniach biomedycznych

.

Genetics

.

2015

;

199

:

639

653

.

Bilder
D.

,

Irvine
K.D.
Taking stock of the Drosophila research ecosystem

.

Genetics

.

2017

;

206

:

1227

1236

.

Uwagi autorów

Członkowie konsorcjum FlyBase są wymienieni w Podziękowaniach.

© The Author(s) 2018. Published by Oxford University Press on behalf of Nucleic Acids Research.
This is an Open Access article distributed under the terms of the Creative Commons Attribution License (http://creativecommons.org/licenses/by/4.0/), which permits unrestricted reuse, distribution, and reproduction in any medium, provided the original work is properly cited.

.

Dodaj komentarz

Twój adres e-mail nie zostanie opublikowany.