BioExcel – Centrul de Excelență în Calculul Cercetării Biomoleculare

GROMACS (http://www.gromacs.org) este unul dintre cele mai importante pachete software pentru simularea macromoleculelor biologice. Acesta este destinat efectuării simulării sistemelor mari, relevante din punct de vedere biologic, punând accentul atât pe faptul că este eficient, cât și flexibil pentru a permite cercetarea unui număr de sisteme diferite (a se vedea exemplele furnizate mai jos în pagină). Programul a fost utilizat de grupuri de cercetare din întreaga lume, câteva sute de publicații bazate direct sau indirect pe acesta fiind publicate în ultimii ani (a se vedea figura de mai jos pentru rezultatele unei căutări a utilizării programului în Scopus).

Rezultatul unei căutări a termenului „GROMACS” în baza de date Scopus, care arată creșterea utilizării în ultimii ani.

Licență

GROMACS este software liber; îl puteți redistribui și/sau modifica în conformitate cu termenii Licenței publice generale GNU Lesser General Public License
, așa cum a fost publicată de Free Software Foundation; fie versiunea 2.1 a licenței, fie (la alegerea dumneavoastră) orice versiune ulterioară.

GROMACS este distribuit în speranța că va fi util, dar FĂRĂ NICI O GARANȚIE; fără nici măcar garanția implicită de COMERCIALIZARE sau de APTITUDINE PENTRU UN SCOP PARTICULAR.

Vezi Licența GNU Lesser General Public License pentru mai multe detalii. Textul complet al licenței poate fi găsit aici.

Implicare în Bioexcel

GROMACS face parte din demersul Bioexcel de a oferi cadrul pentru simularea oricărui sistem biomolecular, prin dezvoltarea de instrumente care sunt atât eficiente în simularea sistemelor relevante din punct de vedere biologic, oferind în același timp flexibilitatea de a fi aplicate la diferite cazuri de utilizare prin capacitatea de a extinde rapid funcționalitatea. Capacitatea GROMACS de a simula sisteme arbitrar de mari dimensiuni face posibilă combinarea cunoștințelor furnizate de celelalte programe implicate în program pentru a obține o mai bună înțelegere a sistemelor studiate.

Dezvoltări ulterioare ca parte a Bioexcel

Obiectivul este de a extinde capacitățile existente ale GROMACS prin furnizarea unui cadru API pe care alte programe îl pot utiliza pentru a se interfața cu motorul principal de simulare. Acest lucru va face posibilă extinderea în continuare a posibilității de utilizare la sisteme mai relevante din punct de vedere biologic și chimic, deoarece alte programe vor putea să se conecteze direct cu rutinele de bază eficiente utilizate pentru simulări.

În plus, atât partenerii de la KTH, cât și cei de la MPG vor contribui la îmbunătățirea performanței, scalabilității, calității și utilizabilității atât pentru GROMACS, cât și pentru alte coduri de simulare:

  • QA, teste unitare și o bibliotecă generală pentru modelarea biomoleculară.
    GROMACS va fi transformat într-o bibliotecă C++ bazată pe module de ultimă generație, cu teste unitare complete și documentație actualizată pentru utilizator & dezvoltator pentru toate modulele. Proiectul trece la o configurație profesională de asigurare a calității prin introducerea unei revizuiri stricte a codului (inclusiv din partea dezvoltatorilor principali) și a unei integrări continue automate în care toate patch-urile sunt compilate și testate unitar pe o gamă largă de hardware și compilatoare pentru a aproba din punct de vedere calitativ fiecare modificare și pentru a face posibil ca orice site de instalare să garanteze calitatea instalării compilate.
  • Paralelizare eterogenă.
    Vom dezvolta o nouă implementare de paralelizare eterogenă, în care toate resursele disponibile ale procesorului, acceleratorului și comunicațiilor sunt utilizate în paralel pe fiecare nod prin multithreading explicit și echilibrare a încărcăturii pe mai multe niveluri, precum și un nou suport pentru acceleratoarele OpenCL și Xeon Phi în plus față de CUDA.
  • Tehnici de ansamblu eficiente.
    Câteva dintre cele mai puternice abordări actuale se bazează pe utilizarea a sute sau mii de simulări pentru tehnici de eșantionare de ansamblu, cum ar fi modelele de stare Markov sau calculele de energie liberă. Vom face aceste abordări accesibile utilizatorilor în general prin integrarea completă a cadrului nostru Copernicus pentru simularea de ansamblu cu GROMACS (Pronk et al. 2011). Acest lucru va face posibilă formularea problemelor de eșantionare de nivel înalt și de calcul al energiei libere ca probleme de calcul de tip black-box care pot utiliza sute de mii de procesoare în mod intern. Acest lucru este deosebit de important pentru aplicațiile de screening de energie liberă cu randament ridicat. În mod notabil, cadrul nu este limitat la GROMACS, ci poate fi utilizat cu orice cod.
  • Pentru a facilita schimbul de date cu alte aplicații și pentru a permite simularea complet automatizată de mare randament, dezvoltăm formate de date publice pentru a descrie moleculele cu XML, formate de traiectorie foarte comprimate care acceptă hașuri și semnături digitale pentru a garanta integritatea datelor și noi instrumente pentru a crea automat descrieri de interacțiune (topologii) pentru molecule mici arbitrare utilizate e.de exemplu, ca și compuși medicamentoși care vizează o serie de câmpuri de forță diferite, cum ar fi CHARMM, GAFF sau OPLS-AA (Lundborg & Lindahl 2014).
  • Câteva dintre cele mai promițătoare aplicații potențiale ale calculului energiei libere includ predicția experimentelor de scanare a aminoacizilor sau modul în care ar trebui modificate moleculele mici pentru a îmbunătăți legarea. În prezent, acest lucru este îngreunat de cerința fie de a calcula energiile libere absolute pentru modificări mari (ceea ce cauzează erori statistice mari), fie de a proiecta manual topologii în care reziduurile sau medicamentele sunt mutate direct în molecule înrudite. În cadrul BioExcel, vom face ca calculele de energie liberă să fie aplicabile în aceste medii de mare randament prin dezvoltarea și integrarea de noi module pentru a transforma automat orice aminoacid în altele și pentru a transforma automat compușii medicamentoși în derivați înrudiți, menținând perturbarea cât mai mică posibil. În combinație cu generarea automată a topologiei și simularea de ansamblu, acest lucru va transforma simulările moleculare într-un instrument care poate examina stabilitatea moleculară și de legare în 24-48 de ore, cu implicații importante pentru utilizarea concepției de medicamente în industria farmaceutică.

Infrastructura de dezvoltare

Pentru a asigura atât corectitudinea codului programului și, prin urmare, a rezultatelor simulării, cât și pentru a impulsiona dezvoltarea prin contibuții interne și externe, utilizăm cele mai bune practici asociate cu dezvoltarea modernă de software:

  • Controlul versiunilor și al revizuirilor codului sursă este asigurat prin utilizarea git ca sistem de control al versiunilor, depozitul GROMACS fiind disponibil pentru verificarea codului sursă folosind
    git clone git://gitlab.com/gromacs/gromacs.git

    sau prin navigare la https://github.com/gromacs/gromacs. git permite, în același timp, un control eficient al versiunilor, precum și permite contribuții și dezvoltare din partea dezvoltatorilor din întreaga lume.

  • Codul GROMACS este revizuit manual și automat cu ajutorul GitLab, asigurându-se că noile contribuții și modificările aduse bazei de cod existente trec de inspecția mai multor dezvoltatori de bază înainte de a fi incluse în distribuția principală. Serverul de revizuire a codului GROMCAS poate fi contactat la adresa https://gitlab.com/gromacs/gromacs.
  • Testările de integrare continuă sunt efectuate pentru fiecare modificare înainte și după includerea în ramura principală prin utilizarea GitLab CI. Acest lucru asigură că fiecare modificare nu numai că trece o serie de teste de portabilitate înainte de a fi inclusă, dar și că nicio modificare nu va introduce erori prin testarea extinsă a funcționalității existente. Testele GROMACS sunt rulate, de asemenea, folosind GitLab.
  • Părțile noi și cele existente ale programului sunt testate extensiv folosind infrastructura noastră de testare unitară și de regresie integrată în sistemul nostru de revizuire a codului și CI.
  • Standardele de documentare sunt aplicate prin utilizarea Doxygen (doxygen.org) ca instrument standard pentru documentarea funcțiilor și includerea acestora în manualul de referință al programului.
  • Utilizăm sistemul de urmărire a problemelor integrat în GitLab, iar problemele pot fi deschise pe GROMACS issue tracker pentru a ne permite să identificăm erorile programului și să lucrăm împreună cu utilizatorii și dezvoltatorii la remedierea acestora.

Activități de instruire și asistență

Punem la dispoziție mai multe modalități prin care atât utilizatorii, cât și potențialii dezvoltatori ai GROMACS pot intra în contact cu noi pentru a ne adresa întrebări referitoare la aplicații și modificări.

  • Întrebările generale referitoare la utilizarea GROMACS pentru simularea sistemelor pot și ar trebui să fie adresate pe forumul GROMACS.
  • Întrebările privind dezvoltarea GROMACS și implementarea de noi funcționalități trebuie să fie adresate pe lista de discuții a dezvoltatorilor. Acesta este, de asemenea, locul unde se pot obține mai multe informații despre noile și viitoarele funcționalități pentru viitoarele versiuni.

Descriere software

Simularea macromoleculelor biologice a evoluat de la o metodă de nișă de mecanică statistică de nișă la unul dintre cele mai larg aplicate instrumente de cercetare biofizică și este utilizat cu mult în afara chimiei teoretice. Supercalculatoarele sunt acum la fel de importante ca și centrifugele sau eprubetele în chimie. După cum a demonstrat premiul Nobel pentru chimie din 2013, dinamica moleculară bazată pe mecanica statistică face posibilă simularea mișcărilor atomice în medii realiste la temperatura camerei, pentru sisteme care variază de la chimia materialelor la proteine, ADN, ARN și membrane care conțin milioane de atomi. Algoritmul fundamental al dinamicii moleculare evaluează forțele asupra tuturor atomilor dintr-un sistem și actualizează vitezele și pozițiile atomilor în conformitate cu ecuațiile de mișcare ale lui Newton. Această schemă de integrare numerică este iterată timp de miliarde de pași și generează o serie de eșantioane care descriu ansamblul termodinamic al sistemului. Acesta este adevăratul punct forte al tehnicii, deoarece prezice experimentele: poate descrie cu exactitate modul în care se mișcă moleculele, cum ar fi proteinele, dar permite, de asemenea, calcularea energiilor libere care descriu reacțiile chimice, de exemplu, energia liberă de legare a unui compus medicamentos candidat în situsul activ al unei proteine sau modul în care un ligand va stabiliza o anumită conformație pentru a deschide sau închide un canal ionic. Deoarece calculul forțelor este necesar pentru un număr mare de algoritmi, mai multe alte pachete utilizează seturi de instrumente de simulare moleculară ca biblioteci pentru a evalua energiile, de exemplu în docking sau atunci când se rafinează structurile cu restricții experimentale, cum ar fi datele de raze X, RMN sau Cryo-EM. gromacs scaling

Această dezvoltare nu ar fi fost posibilă fără eforturi semnificative de cercetare în materie de algoritmi de simulare, optimizare și paralelizare. Apariția pachetelor standardizate pentru modelarea moleculară, cum ar fi GROMACS, NAMD, AMBER și CHARMM, a fost esențială, deoarece acestea au contribuit la rentabilizarea cercetării în domeniul simulării, făcând tehnicile disponibile pentru cercetătorii de aplicații din domeniul științelor vieții care nu sunt specialiști în dezvoltarea simulării. Toate aceste pachete au puncte forte și profiluri complementare – domeniul a trecut de la o concurență istorică la un schimb extins de idei. GROMACS este unul dintre cele mai utilizate pachete de software științific din lume, cu aproximativ 20 000 de citări în total (Hess et al. 2008, Pronk et al. 2013); este cea mai mare aplicație de software liber și open source în cercetarea biomoleculară și singurul dintre pachetele majore de simulare a dinamicii moleculare în care dezvoltarea este condusă în Europa.

Proiectul GROMACS a început în 1995 ca unul dintre primele coduri de simulare paralelă, echipa internațională de dezvoltare este condusă de partenerul KTH, iar proiectul este puternic axat pe eficiența și generalitatea simulării. Este singurul pachet care suportă toate câmpurile de forțe comune și dispune de o gamă foarte largă de algoritmi de simulare. Acest lucru, combinat cu licențele foarte liberale (și prietenoase cu mediul de afaceri), este probabil un factor major pentru care este utilizat ca bibliotecă de simulare, minimizare și evaluare a energiei de mai multe alte aplicații, de exemplu, în bioinformatică sau în proiecte de calcul distribuit, cum ar fi Folding@Home. Codul este portabil pe o gamă foarte largă de platforme (inclusiv cele încorporate), include nuclee de asamblare reglate manual pentru o duzină de seturi de instrucțiuni de arhitectură diferite și suport pentru acceleratoare atât pentru GPU Nvidia cu CUDA, GPU AMD cu OpenCL, cât și pentru procesoarele Xeon Phi în mod nativ. Pachetul utilizează descompunerea domeniilor în teritoriu neutru de ultimă generație și paralelizarea pe mai multe niveluri pentru a permite scalarea atât la zeci de mii de noduri pe supercalculatoare, cât și calculul eficient la viteze mari cu acceleratoare (Pall et al. 2014).

GROMACS poate utiliza deja mii de nuclee și sute de acceleratoare în paralel în mod eficient, chiar și pentru un singur sistem destul de mic. Atunci când se adaugă paralelizarea la nivel de ansamblu cu Copernicus, scalarea totală a problemei se extinde cu încă două ordine de mărime.

Simularea dinamicii moleculare în general, și GROMACS în special, a făcut posibilă studierea sistemelor biomoleculare mari și complexe, cum ar fi membranele și proteinele membranare, și sondarea detaliilor atomice care nu sunt accesibile niciunei metode experimentale. Simulările moleculare au furnizat unele dintre primele modele de înaltă rezoluție ale stărilor de repaus ale canalelor ionice pe baza structurilor cu raze X ale canalelor deschise (Vargas et al. 2012) și au fost esențiale pentru a modela conformațiile intermediare tranzitorii în timpul tranzițiilor structurale ale proteinelor membranare (Henrion et al. 2012). GROMACS a fost utilizat, de asemenea, pentru a prezice prima recunoaștere moleculară specifică a lipidelor de către proteinele membranare (Contreras et al. 2012) și pentru simulările care au identificat situsuri de legare potențatoare și inhibitoare separate în canalele ionice cu ligand-gatare ale sistemului nostru nervos (Murail et al. 2012) – rezultate care sunt acum utilizate de mai multe grupuri în încercările de a proiecta medicamente mai bune.

.

Lasă un răspuns

Adresa ta de email nu va fi publicată.