BioExcel – Centrum excelence pro výpočetní biomolekulární výzkum

GROMACS (http://www.gromacs.org) je jedním z hlavních softwarových balíků pro simulaci biologických makromolekul. Je zaměřen na provádění simulací velkých, biologicky relevantních systémů, přičemž důraz je kladen jak na efektivitu, tak na flexibilitu umožňující výzkum řady různých systémů (viz příklady uvedené dále na stránce). Program používají výzkumné skupiny po celém světě, přičemž v posledních několika letech bylo publikováno několik stovek publikací přímo či nepřímo založených na tomto programu (viz obrázek níže, kde jsou uvedeny výsledky vyhledávání použití programu v databázi Scopus).

Výsledek vyhledávání termínu „GROMACS“ v databázi Scopus, který ukazuje nárůst použití v posledních letech.

Licence

GROMACS je svobodný software; můžete jej šířit a/nebo upravovat za podmínek licence GNU Lesser General Public License
, jak ji vydala Free Software Foundation; buď verze 2.1 licence, nebo (podle vaší volby) jakékoli pozdější verze.

GROMACS je šířen v naději, že bude užitečný, ale BEZ JAKÉKOLIV ZÁRUKY; dokonce i bez předpokládané záruky PRODEJNOSTI nebo VHODNOSTI PRO KONKRÉTNÍ ÚČEL.

Podrobnější informace najdete v GNU Lesser General Public License. Úplné znění licence naleznete zde.

Zapojení do Bioexcelu

GROMACS je součástí snahy Bioexcelu poskytnout rámec pro simulaci jakéhokoli biomolekulárního systému, a to prostřednictvím vývoje nástrojů, které jsou účinné při simulaci biologicky relevantních systémů a zároveň poskytují flexibilitu pro použití v různých případech použití díky možnosti rychlého rozšíření funkčnosti. Schopnost programu GROMACS simulovat libovolně velké systémy umožňuje kombinovat znalosti poskytované ostatními programy zapojenými do programu, aby bylo možné lépe porozumět studovaným systémům.

Další vývoj v rámci programu Bioexcel

Cílem je rozšířit stávající možnosti programu GROMACS poskytnutím rámce API, který mohou ostatní programy používat k propojení s hlavním simulačním motorem. To umožní další rozšíření možného využití na více biologicky a chemicky relevantních systémů, protože další programy budou moci přímo komunikovat s efektivními základními rutinami používanými pro simulace.

Kromě toho přispějí partneři KTH i MPG ke zlepšení výkonnosti, škálovatelnosti, kvality a použitelnosti jak pro GROMACS, tak pro další simulační kódy:

  • Kvalita, jednotkové testování a obecná knihovna pro biomolekulární modelování.
    GROMACS bude přeměněn na nejmodernější knihovnu C++ založenou na modulech s plným jednotkovým testováním a aktuální uživatelskou & dokumentací pro vývojáře všech modulů. Projekt přechází na profesionální nastavení kontroly kvality zavedením přísné kontroly kódu (včetně kontroly ze strany hlavních vývojářů) a automatické kontinuální integrace, kdy jsou všechny opravy kompilovány a jednotkově testovány na široké škále hardwaru a překladačů, aby bylo možné kontrolovat kvalitu každé jednotlivé změny a aby každé místo instalace mohlo zaručit kvalitu své zkompilované instalace.
  • Heterogenní paralelizace.
    Vyvineme novou implementaci heterogenní paralelizace, při níž jsou na každém uzlu paralelně využívány všechny dostupné prostředky procesoru, akcelerátoru a komunikace prostřednictvím explicitního vícevláknového a víceúrovňového vyvažování zátěže, a také novou podporu akcelerátorů OpenCL a Xeon Phi vedle CUDA.
  • Efektivní ansámblové techniky.
    Některé z nejvýkonnějších přístupů jsou dnes založeny na použití stovek nebo tisíců simulací pro ansámblové vzorkovací techniky, jako jsou Markovovy stavové modely nebo výpočty volné energie. Tyto přístupy zpřístupníme uživatelům obecně tím, že plně integrujeme náš rámec Copernicus pro ansámblové simulace se systémem GROMACS (Pronk et al. 2011). To umožní formulovat problémy vzorkování na vysoké úrovni a výpočty volné energie jako výpočetní problémy typu black-box, které mohou interně zaměstnávat stovky tisíc procesorů. To je důležité zejména pro vysoce výkonné aplikace screeningu volné energie. Pozoruhodné je, že tento rámec není omezen na GROMACS, ale lze jej použít s jakýmkoli kódem.
  • Pro usnadnění výměny dat s jinými aplikacemi a umožnění plně automatizované vysokokapacitní simulace vyvíjíme veřejné datové formáty pro popis molekul pomocí XML, vysoce komprimované formáty trajektorií, které podporují digitální hashe a podpisy pro zaručení integrity dat, a nové nástroje pro automatické vytváření popisů interakcí (topologií) pro libovolné malé molekuly, které se používají např.např. jako sloučeniny léčiv zaměřené na řadu různých silových polí, jako jsou CHARMM, GAFF nebo OPLS-AA (Lundborg & Lindahl 2014).
  • Mezi nejslibnější potenciální aplikace výpočtu volné energie patří předpověď experimentů se skenováním aminokyselin nebo toho, jak by měly být malé molekuly změněny, aby se zlepšila vazba. V současné době tomu brání požadavek buď počítat absolutní volné energie pro velké změny (což způsobuje velké statistické chyby), nebo ručně navrhovat topologie, kdy se zbytky nebo léčiva přímo morfují do příbuzných molekul. V rámci programu BioExcel umožníme výpočty volných energií aplikovat v těchto vysoce výkonných podmínkách tím, že vyvineme a integrujeme nové moduly pro automatické morfování libovolné aminokyseliny na jiné a automatickou přeměnu sloučenin léčiv na příbuzné deriváty při zachování co nejmenší perturbace. V kombinaci s automatickým generováním topologie a ansámblovou simulací se tak z molekulárních simulací stane nástroj, který dokáže prověřit molekulární a vazebnou stabilitu během 24-48 hodin, což bude mít velký význam pro využití při navrhování léčiv ve farmaceutickém průmyslu.

Vývojová infrastruktura

Pro zajištění správnosti programového kódu, a tím i výsledků simulace, a pro řízení vývoje prostřednictvím interních i externích kontibucí využíváme osvědčené postupy spojené s vývojem moderního softwaru:

  • Řízení verzí a revizí zdrojového kódu je zajištěno pomocí systému git jako systému řízení verzí, přičemž repozitář GROMACS je k dispozici pro kontrolu zdrojového kódu pomocí
    git clone git://gitlab.com/gromacs/gromacs.git

    nebo prostřednictvím prohlížení na adrese https://github.com/gromacs/gromacs. Git umožňuje efektivní kontrolu verzí a zároveň umožňuje příspěvky a vývoj od vývojářů z celého světa.

  • Kód systému GROMACS je ručně i automaticky kontrolován pomocí systému GitLab, což zajišťuje, že nové příspěvky a změny stávající základny kódu projdou před zařazením do hlavní distribuce kontrolou několika hlavních vývojářů. Server pro revizi kódu GROMCAS je dostupný na adrese https://gitlab.com/gromacs/gromacs.
  • Kontinuální integrační testování se provádí u každé změny před a po zařazení do hlavní větve pomocí GitLab CI. Tím je zajištěno, že každá změna před zařazením projde nejen řadou testů přenositelnosti, ale také že žádná změna nezavede chyby díky rozsáhlému testování stávající funkčnosti. Testy GROMACS jsou rovněž prováděny pomocí systému GitLab.
  • Nové i stávající části programu jsou rozsáhle testovány pomocí infrastruktury pro jednotkové a regresní testování integrované do našeho systému kontroly kódu a CI.
  • Standardy dokumentace jsou prosazovány pomocí Doxygen (doxygen.org) jako standardního nástroje pro dokumentaci funkcí a jejich zahrnutí do referenční příručky programu.
  • Používáme systém sledování problémů integrovaný v systému GitLab a v systému sledování problémů GROMACS lze otevírat problémy, které nám umožňují identifikovat chyby v programu a spolupracovat s uživateli a vývojáři na jejich opravě.

Školení a podpůrné činnosti

Uživatelům i potenciálním vývojářům systému GROMACS poskytujeme několik možností, jak se s námi spojit a položit nám své dotazy týkající se aplikací a úprav.

  • Obecné dotazy týkající se použití systému GROMACS pro simulaci systémů lze a je třeba klást na fóru GROMACS.
  • Dotazy týkající se vývoje systému GROMACS a implementace nových funkcí je třeba klást v poštovní konferenci vývojářů. Zde je také možné získat další informace o nových a připravovaných funkcích pro budoucí verze.

Popis softwaru

Simulace biologických makromolekul se vyvinula z výklenkové statisticko-mechanické metody v jeden z nejrozšířenějších nástrojů biofyzikálního výzkumu a používá se daleko mimo teoretickou chemii. Superpočítače jsou nyní v chemii stejně důležité jako centrifugy nebo zkumavky. Jak ukázala Nobelova cena za chemii z roku 2013, molekulární dynamika založená na statistické mechanice umožňuje simulovat pohyby atomů v realistickém prostředí při pokojové teplotě pro systémy od materiálové chemie až po proteiny, DNA, RNA a membrány obsahující miliony atomů. Základní algoritmus molekulární dynamiky vyhodnocuje síly působící na všechny atomy v systému a aktualizuje rychlosti a polohy atomů podle Newtonových pohybových rovnic. Toto numerické integrační schéma se iteruje po miliardy kroků a vytváří řadu vzorků, které popisují termodynamický soubor systému. To je skutečná síla této techniky, protože předpovídá experimenty: dokáže přesně popsat, jak se pohybují molekuly, například proteiny, ale také umožňuje výpočet volných energií, které popisují chemické reakce, například volnou energii vazby kandidátní sloučeniny léčiva v aktivním místě proteinu nebo to, jak se ligand stabilizuje v určité konformaci, aby otevřel nebo uzavřel iontový kanál. Vzhledem k tomu, že výpočet sil je nutný pro velké množství algoritmů, několik dalších balíků používá sady nástrojů molekulární simulace jako knihovny pro vyhodnocení energií, například při dokování nebo při zpřesňování struktur pomocí experimentálních omezení, jako jsou rentgenová, NMR nebo kryoEM data.škálování gromacs

Tento vývoj by nebyl možný bez značného výzkumného úsilí v oblasti simulačních algoritmů, optimalizace a paralelizace. Vznik standardizovaných balíčků pro molekulární modelování, jako jsou GROMACS, NAMD, AMBER a CHARMM, měl zásadní význam, protože pomohl komoditizovat simulační výzkum a zpřístupnit tyto techniky výzkumníkům zabývajícím se aplikacemi v oblasti přírodních věd, kteří nejsou specialisty na vývoj simulací. Všechny tyto balíčky mají vzájemně se doplňující silné stránky a profily – obor se posunul od historické konkurence k rozsáhlému sdílení nápadů. GROMACS je jedním z nejpoužívanějších vědeckých softwarových balíků na světě s celkem asi 20 000 citacemi (Hess et al. 2008, Pronk et al. 2013); je to největší svobodný software a open source aplikace v biomolekulárním výzkumu a jediný z hlavních balíků pro simulaci molekulární dynamiky, jehož vývoj je veden v Evropě.

Projekt GROMACS byl zahájen v roce 1995 jako jeden z vůbec prvních paralelních simulačních kódů, mezinárodní vývojový tým vede partner KTH a projekt je silně zaměřen na efektivitu a obecnost simulace. Je to jediný balík, který podporuje všechna běžná silová pole a má velmi širokou škálu simulačních algoritmů. To je v kombinaci s velmi liberálním (a obchodně přívětivým) licencováním pravděpodobně hlavním faktorem, proč jej jako knihovnu pro simulace, minimalizaci a vyhodnocování energie používá několik dalších aplikací, např. v bioinformatice nebo v projektech distribuovaných výpočtů, jako je Folding@Home. Kód je přenositelný na velmi širokou škálu platforem (včetně vestavěných), obsahuje ručně vyladěná jádra assembleru pro desítku různých instrukčních sad architektur a podporu akcelerátorů jak pro GPU Nvidia s CUDA, tak pro GPU AMD s OpenCL a nativně pro procesory Xeon Phi. Balík využívá nejmodernější dekompozici domén neutrálního území a víceúrovňovou paralelizaci, která umožňuje škálování jak na desítky tisíc uzlů na superpočítačích, tak efektivní vysoce výkonné výpočty s akcelerátory (Pall et al. 2014).

GROMACS již dokáže efektivně paralelně využívat tisíce jader a stovky akcelerátorů, a to i pro jeden poměrně malý systém. Po přidání paralelizace na úrovni ansámblu pomocí programu Copernicus se celkové škálování problému rozšíří o další dva řády.

Simulace molekulární dynamiky obecně a GROMACS konkrétně umožnily studovat velké a složité biomolekulární systémy, jako jsou membrány a membránové proteiny, a zkoumat atomární detaily, které nejsou přístupné žádným experimentálním metodám. Molekulární simulace poskytly jedny z prvních modelů klidových stavů iontových kanálů s vysokým rozlišením na základě rentgenových struktur otevřených kanálů (Vargas et al. 2012) a měly zásadní význam pro modelování přechodných mezistupňových konformací během strukturních přechodů membránových proteinů (Henrion et al. 2012). GROMACS byl také použit k předpovědi prvního specifického molekulárního rozpoznávání lipidů membránovými proteiny (Contreras et al. 2012) a k simulacím, které identifikovaly oddělená potenční a inhibiční vazebná místa v ligandem řízených iontových kanálech našeho nervového systému (Murail et al. 2012) – výsledky, které nyní využívá několik skupin při pokusech o návrh lepších léčiv.

Napsat komentář

Vaše e-mailová adresa nebude zveřejněna.