BioExcel – Centre of Excellence for Computation Biomolecular Research

GROMACS (http://www.gromacs.org) ist eines der wichtigsten Softwarepakete für die Simulation von biologischen Makromolekülen. Es zielt auf die Simulation großer, biologisch relevanter Systeme ab, wobei der Schwerpunkt darauf liegt, sowohl effizient als auch flexibel zu sein, um die Erforschung einer Reihe unterschiedlicher Systeme zu ermöglichen (siehe die Beispiele weiter unten auf der Seite). Das Programm wird von Forschergruppen auf der ganzen Welt verwendet, und in den letzten Jahren wurden mehrere hundert Publikationen veröffentlicht, die direkt oder indirekt auf diesem Programm basieren (siehe Abbildung unten für die Ergebnisse einer Suche nach der Verwendung des Programms in Scopus).

Ergebnis einer Suche nach dem Begriff „GROMACS“ in der Scopus-Datenbank, das den Anstieg der Verwendung in den letzten Jahren zeigt.

Lizenz

GROMACS ist freie Software; Sie können es unter den Bedingungen der GNU Lesser General Public License
, wie von der Free Software Foundation veröffentlicht, weitergeben und/oder modifizieren; entweder Version 2.1 der Lizenz oder (nach Ihrer Wahl) jede spätere Version.

GROMACS wird in der Hoffnung verteilt, dass es nützlich sein wird, aber OHNE JEGLICHE GARANTIE; sogar ohne die stillschweigende Garantie der MARKTREIFE oder der EIGNUNG FÜR EINEN BESTIMMTEN ZWECK.

Siehe die GNU Lesser General Public License für weitere Details. Der vollständige Lizenztext ist hier zu finden.

Beteiligung an Bioexcel

GROMACS ist Teil des Bioexcel-Ansatzes, einen Rahmen für die Simulation beliebiger biomolekularer Systeme zu schaffen, und zwar durch die Entwicklung von Werkzeugen, die sowohl effizient bei der Simulation biologisch relevanter Systeme sind, als auch die Flexibilität bieten, durch die Fähigkeit, die Funktionalität schnell zu erweitern, auf verschiedene Anwendungsfälle angewendet zu werden. Die Fähigkeit von GROMACS, beliebig große Systeme zu simulieren, ermöglicht es, das von den anderen am Programm beteiligten Programmen bereitgestellte Wissen zu kombinieren, um ein besseres Verständnis der untersuchten Systeme zu erhalten.

Weiterentwicklungen als Teil von Bioexcel

Das Ziel ist es, die bestehenden Fähigkeiten von GROMACS durch die Bereitstellung eines API-Rahmens zu erweitern, den andere Programme als Schnittstelle zur Hauptsimulationsmaschine nutzen können. Dies wird es ermöglichen, die Nutzungsmöglichkeiten auf weitere biologisch und chemisch relevante Systeme auszudehnen, da andere Programme eine direkte Schnittstelle zu den effizienten Kernroutinen für die Simulationen haben werden.

Darüber hinaus werden sowohl die KTH- als auch die MPG-Partner dazu beitragen, die Leistung, Skalierbarkeit, Qualität und Nutzbarkeit sowohl für GROMACS als auch für andere Simulationscodes zu verbessern:

  • QS, Unit-Tests und eine allgemeine Bibliothek für biomolekulare Modellierung.
    GROMACS wird zu einer modernen modulbasierten C++-Bibliothek mit vollständigen Unit-Tests und einer aktuellen Benutzer-& und Entwicklerdokumentation für alle Module. Das Projekt geht zu einer professionellen Qualitätssicherung über, indem es eine strenge Codeüberprüfung (auch durch die Hauptentwickler) und eine automatische kontinuierliche Integration einführt, bei der alle Patches kompiliert und auf einer breiten Palette von Hardware und Compilern getestet werden, um jede einzelne Änderung qualitätsgesichert abzusegnen und es jedem Installationsort zu ermöglichen, die Qualität seiner kompilierten Installation zu garantieren.
  • Heterogene Parallelisierung.
    Wir werden eine neue heterogene Parallelisierungsimplementierung entwickeln, bei der alle verfügbaren CPU-, Beschleuniger- und Kommunikationsressourcen auf jedem Knoten durch explizites Multithreading und mehrstufigen Lastausgleich parallel genutzt werden, sowie neue Unterstützung für OpenCL und Xeon Phi-Beschleuniger zusätzlich zu CUDA.
  • Effiziente Ensemble-Techniken.
    Einige der leistungsfähigsten Ansätze basieren heute auf der Verwendung von Hunderten oder Tausenden von Simulationen für Ensemble-Sampling-Techniken wie Markov-Zustandsmodelle oder Berechnungen der freien Energie. Wir werden diese Ansätze den Nutzern allgemein zugänglich machen, indem wir unser Copernicus-Framework für Ensemblesimulationen vollständig in GROMACS integrieren (Pronk et al. 2011). Dadurch wird es möglich sein, High-Level-Sampling- und Freie-Energie-Berechnungsprobleme als Black-Box-Berechnungsprobleme zu formulieren, die intern Hunderttausende von Prozessoren beschäftigen können. Dies ist besonders wichtig für Screening-Anwendungen mit hohem Durchsatz und freier Energie. Um den Datenaustausch mit anderen Anwendungen zu erleichtern und eine vollautomatische Hochdurchsatzsimulation zu ermöglichen, entwickeln wir öffentliche Datenformate zur Beschreibung von Molekülen mit XML, hochkomprimierte Trajektorienformate, die digitale Hashes und Signaturen unterstützen, um die Datenintegrität zu gewährleisten, sowie neue Werkzeuge zur automatischen Erstellung von Interaktionsbeschreibungen (Topologien) für beliebige kleine Moleküle, die z. B. als Arzneimittelverbindungen verwendet werden.z. B. als Medikamentenverbindungen, die auf eine Reihe verschiedener Kraftfelder wie CHARMM, GAFF oder OPLS-AA abzielen (Lundborg & Lindahl 2014).
  • Zu den vielversprechendsten potenziellen Anwendungen der Berechnung der freien Energie gehört die Vorhersage von Aminosäure-Scanning-Experimenten oder wie kleine Moleküle verändert werden sollten, um die Bindung zu verbessern. Derzeit wird dies dadurch erschwert, dass entweder absolute freie Energien für große Veränderungen berechnet werden müssen (was zu großen statistischen Fehlern führt) oder dass Topologien manuell entworfen werden müssen, bei denen Rückstände oder Medikamente direkt in verwandte Moleküle umgewandelt werden. Im Rahmen von BioExcel werden wir die Berechnungen freier Energien in diesen Hochdurchsatzumgebungen anwendbar machen, indem wir neue Module entwickeln und integrieren, mit denen sich beliebige Aminosäuren automatisch in andere umwandeln lassen und Arzneimittelverbindungen automatisch in verwandte Derivate umgewandelt werden können, wobei die Störung so gering wie möglich gehalten wird. In Kombination mit automatischer Topologiegenerierung und Ensemblesimulation wird dies die Molekularsimulationen in ein Werkzeug verwandeln, das die Molekular- und Bindungsstabilität innerhalb von 24-48 Stunden überprüfen kann, was große Auswirkungen auf die Verwendung von Arzneimitteldesign in der pharmazeutischen Industrie hat.

Entwicklungsinfrastruktur

Um die Korrektheit des Programmcodes und damit der Simulationsergebnisse zu gewährleisten und die Entwicklung sowohl durch interne als auch externe Beiträge voranzutreiben, wenden wir bewährte Verfahren der modernen Softwareentwicklung an:

  • Die Versions- und Revisionskontrolle des Quellcodes wird durch die Verwendung von git als Versionskontrollsystem gewährleistet, wobei das GROMACS-Repository zum Auschecken des Quellcodes über
    git clone git://gitlab.com/gromacs/gromacs.git

    oder durch Browsing unter https://github.com/gromacs/gromacs zur Verfügung steht. git ermöglicht gleichzeitig eine effiziente Versionskontrolle sowie Beiträge und Entwicklungen von Entwicklern aus der ganzen Welt.

  • Der GROMACS-Code wird manuell und automatisch mit GitLab überprüft, um sicherzustellen, dass neue Beiträge und Änderungen an der bestehenden Code-Basis die Inspektion durch mehrere Kernentwickler bestehen, bevor sie in die Hauptdistribution aufgenommen werden. Der GROMCAS-Code-Review-Server ist erreichbar unter https://gitlab.com/gromacs/gromacs.
  • Kontinuierliche Integrationstests werden für jede Änderung vor und nach der Aufnahme in den Hauptzweig mit Hilfe von GitLab CI durchgeführt. Dadurch wird sichergestellt, dass jede Änderung nicht nur eine Reihe von Portabilitätstests durchläuft, bevor sie in den Hauptzweig aufgenommen wird, sondern auch, dass keine Änderung durch umfangreiche Tests der bestehenden Funktionalität Fehler einführt. Die GROMACS-Tests werden ebenfalls mit GitLab durchgeführt.
  • Neue und bestehende Teile des Programms werden ausgiebig mit unserer Infrastruktur für Unit- und Regressionstests getestet, die in unser Code-Review- und CI-System integriert ist.
  • Dokumentationsstandards werden durch die Verwendung von Doxygen (doxygen.org) als Standardwerkzeug für die Dokumentation von Funktionen und deren Aufnahme in das Programmreferenzhandbuch durchgesetzt.
  • Wir verwenden das in GitLab integrierte Issue-Tracking-System, und es können Issues im GROMACS Issue-Tracker geöffnet werden, um Programmfehler zu identifizieren und gemeinsam mit Benutzern und Entwicklern an deren Behebung zu arbeiten.

Schulungs- und Support-Aktivitäten

Wir bieten Nutzern und potentiellen Entwicklern von GROMACS mehrere Möglichkeiten, mit uns in Kontakt zu treten, um ihre Fragen zu Anwendungen und Modifikationen zu stellen.

  • Allgemeine Fragen zur Nutzung von GROMACS zur Simulation von Systemen können und sollten im GROMACS-Forum gestellt werden.
  • Fragen, die die Entwicklung von GROMACS und die Implementierung neuer Funktionen betreffen, sollten auf der Entwickler-Mailingliste gestellt werden. Dies ist auch der richtige Ort, um mehr Informationen über neue und kommende Funktionen für zukünftige Versionen zu erhalten.

Softwarebeschreibung

Die Simulation biologischer Makromoleküle hat sich von einer statistisch-mechanischen Nischenmethode zu einem der am weitesten verbreiteten biophysikalischen Forschungswerkzeuge entwickelt und wird weit außerhalb der theoretischen Chemie eingesetzt. Supercomputer sind in der Chemie inzwischen so wichtig wie Zentrifugen oder Reagenzgläser. Wie der Chemie-Nobelpreis 2013 gezeigt hat, ermöglicht die auf der statistischen Mechanik basierende Molekulardynamik die Simulation der Bewegungen von Atomen in realistischen Umgebungen bei Raumtemperatur, und zwar für Systeme, die von der Materialchemie bis zu Proteinen, DNA, RNA und Membranen mit Millionen von Atomen reichen. Der grundlegende Algorithmus der Molekulardynamik wertet die Kräfte auf alle Atome in einem System aus und aktualisiert die Geschwindigkeiten und Positionen der Atome gemäß den Newtonschen Bewegungsgleichungen. Dieses numerische Integrationsschema wird in Milliarden von Schritten iteriert und erzeugt eine Reihe von Mustern, die das thermodynamische Ensemble des Systems beschreiben. Darin liegt die eigentliche Stärke der Technik, da sie Experimente vorhersagt: Sie kann genau beschreiben, wie sich Moleküle wie z. B. Proteine bewegen, aber sie ermöglicht auch die Berechnung freier Energien, die chemische Reaktionen beschreiben, z. B. die freie Bindungsenergie eines Arzneimittelkandidaten in einer aktiven Stelle eines Proteins oder wie ein Ligand eine bestimmte Konformation stabilisiert, um einen Ionenkanal zu öffnen oder zu schließen. Da die Berechnung von Kräften für eine große Anzahl von Algorithmen erforderlich ist, verwenden mehrere andere Pakete Molekularsimulations-Toolkits als Bibliotheken zur Bewertung von Energien, beispielsweise beim Docking oder bei der Verfeinerung von Strukturen mit experimentellen Einschränkungen wie Röntgen-, NMR- oder Cryo-EM-Daten.gromacs scaling

Diese Entwicklung wäre ohne erhebliche Forschungsanstrengungen im Bereich der Simulationsalgorithmen, Optimierung und Parallelisierung nicht möglich gewesen. Das Aufkommen standardisierter Pakete für die molekulare Modellierung wie GROMACS, NAMD, AMBER und CHARMM war von entscheidender Bedeutung, da sie dazu beigetragen haben, die Simulationsforschung zu kommerzialisieren und die Techniken für Forscher im Bereich der Biowissenschaften zugänglich zu machen, die keine Spezialisten für die Simulationsentwicklung sind. Alle diese Pakete haben komplementäre Stärken und Profile – das Feld hat sich vom historischen Wettbewerb zu einem umfassenden Ideenaustausch entwickelt. GROMACS ist eines der am weitesten verbreiteten wissenschaftlichen Softwarepakete der Welt mit insgesamt etwa 20.000 Zitaten (Hess et al. 2008, Pronk et al. 2013); es ist die größte freie Software und Open-Source-Anwendung in der biomolekularen Forschung und das einzige der großen Molekulardynamik-Simulationspakete, bei dem die Entwicklung in Europa geleitet wird.

Das GROMACS-Projekt begann 1995 als einer der ersten parallelen Simulationscodes überhaupt, das internationale Entwicklungsteam wird vom KTH-Partner geleitet, und das Projekt ist stark auf Simulationseffizienz und Allgemeinheit ausgerichtet. Es ist das einzige Paket, das alle gängigen Kraftfelder unterstützt und eine sehr breite Palette von Simulationsalgorithmen bietet. Dies in Verbindung mit der sehr liberalen (und geschäftsfreundlichen) Lizenzierung ist wahrscheinlich ein Hauptgrund dafür, dass es als Simulations-, Minimierungs- und Energiebewertungsbibliothek von mehreren anderen Anwendungen verwendet wird, z. B. in der Bioinformatik oder in verteilten Computerprojekten wie Folding@Home. Der Code ist auf eine Vielzahl von Plattformen portierbar (einschließlich eingebetteter Plattformen), er enthält manuell abgestimmte Assembler-Kernel für ein Dutzend verschiedener Architekturbefehlssätze und unterstützt Beschleuniger sowohl für Nvidia-GPUs mit CUDA, AMD-GPUs mit OpenCL als auch Xeon Phi-Prozessoren von Haus aus. Das Paket nutzt die modernste neutrale Gebietszerlegung und mehrstufige Parallelisierung, um eine Skalierung sowohl auf Zehntausende von Knoten auf Supercomputern als auch eine effiziente Hochdurchsatzberechnung mit Beschleunigern zu ermöglichen (Pall et al. 2014).

GROMACS kann bereits Tausende von Kernen und Hunderte von Beschleunigern effizient parallel nutzen, selbst für ein einzelnes, recht kleines System. Wenn man die Parallelisierung auf Ensemble-Ebene mit Copernicus hinzufügt, erhöht sich die Gesamtskalierung des Problems um weitere zwei Größenordnungen.

Molekulardynamiksimulationen im Allgemeinen und GROMACS im Besonderen haben es ermöglicht, große und komplexe biomolekulare Systeme wie Membranen und Membranproteine zu untersuchen und atomare Details zu erforschen, die mit experimentellen Methoden nicht zugänglich sind. Molekulare Simulationen lieferten einige der ersten hochauflösenden Modelle von Ruhezuständen von Ionenkanälen auf der Grundlage von Röntgenstrukturen offener Kanäle (Vargas et al. 2012), und sie waren entscheidend für die Modellierung vorübergehender Zwischenkonformationen bei Strukturübergängen von Membranproteinen (Henrion et al. 2012). GROMACS wurde auch verwendet, um die erste spezifische molekulare Erkennung von Lipiden durch Membranproteine vorherzusagen (Contreras et al. 2012) und für die Simulationen, die getrennte potenzierende und hemmende Bindungsstellen in den ligandengesteuerten Ionenkanälen unseres Nervensystems identifizierten (Murail et al. 2012) – Ergebnisse, die nun von mehreren Gruppen bei dem Versuch verwendet werden, bessere Medikamente zu entwickeln.

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht.