MoSGrid

Molecular Simulation Grid

Die chemische Industrie ist eine der forschungsintensivsten Branchen der deutschen Wirtschaft [Quelle: VCI, www.vci.de, Abt. Bildung / Forschung]. 90% der Unternehmen sind kleine oder mittelständische Unternehmen (KMU), wobei diese im Branchenvergleich besonders forschungsorientiert arbeiten. Die hohe Innovationsdynamik führt zu einer engen Zusammenarbeit zwischen Industrie und Wissenschaftseinrichtungen.
MoSGrid (Molecular Simulation Grid) soll für diesen Industrie- und Wissenschaftssektor Wettbewerbsvorteile durch das Grid generieren.

Ziele des Vorhabens
In MoSGrid steht der Aufbau und die Bereitstellung von Grid-Diensten zur Durchführung von molekularen Simulationen im Vordergrund. MoSGrid soll die D-Grid-Infrastruktur für das Hochleistungsrechnen im Bereich Molekülsimulationen nutzbar machen, inklusive der Annotation der Ergebnisse mit Metadaten und deren Bereitstellung für Data Mining und Wissensgenerierung.

MoSGrid wird die Nutzer in allen Bereichen der Simulationsrechnung unterstützen. Über ein Portal kann auf Datenrepositorien zugegriffen werden, in dem Informationen zu berechneten molekularen Eigenschaften sowie zu "Rezepten" - Standardmethoden für die bereitgestellten Anwendungen - hinterlegt sind. Mit Hilfe der Rezepte können Rechenaufträge automatisch generiert und in das Grid submittiert werden (Preprocessing und Job Submission). Weiterhin werden die Nutzer bei der Auswertung der Berechnungsergebnisse unterstützt. Dies erleichtert die Aufbereitung und Weiterverarbeitung der Daten für darauf aufsetzende weitere Rechnungen und Analysen.

Durch die Herstellung von Kreuzbezügen verschiedener Ergebnisdatensätze wird ein zusätzlicher Erkenntnisgewinn erreicht. Das Datenrepositorium ermöglicht zudem die externe Referenzierbarkeit von Simulationsergebnissen.

Grid-Dienste und Software
Die D-Grid-Initiative ermöglicht bereits heute den unterstützten Communities einen einfachen Zugang zu verteilten Rechenressourcen. Auf diesen grundlegenden Techniken und Werkzeugen aufbauend wird MoSGrid die speziellen Anforderungen der chemisch orientierten Wissenschaftler in die D-Grid-Infrastruktur integrieren.

Die hohe Komplexität der Programme dieser Disziplin (z.B. Quantenmechanik oder Molekulardynamik) erschwert nicht-spezialisierten Wissenschaftlern oft den Einstieg in diese Technologien. Erschwerend kommt hinzu, dass geeignete Benutzerschnittstellen, wie z.B. grafische Eingabehilfen, oftmals nicht oder nur unzureichend verfügbar sind. Wesentliche Erleichterung erfährt ein Nutzer jedoch durch eine übersichtliche Methodenauswahl und den einfachen Import von Moleküldaten, sowie die automatische Erstellung eines programmspezifischen Eingabedatensatzes.

MoSGrid wird daher eine webbasierte, grafische Benutzerschnittstelle zur Verfügung stellen, mit deren Hilfe eine transparente Nutzung der eingerichteten Anwendungen ermöglicht wird. Damit werden auf Wunsch hochwertige Standardverfahren z.B. für grundlegende Strukturoptimierungen mit quantenchemischen Methoden oder Standard-Workflows für molekulardynamische Untersuchungen vorgeschlagen, die ein Wissenschaftler auf Basis seiner eigenen Anforderungen modifizieren kann.

Aus den so erhaltenen Informationen können die Eingabedateien für die eigentliche Simulationsrechnung mit Hilfe von sog. "Adaptern" automatisch generiert werden. Auf Basis bekannter und etablierter Methoden werden Jobs in das Grid submittiert und überwacht. Die Adapter werden vom Konsortium und den Nutzern erzeugt, gepflegt und erweitert.

Simulationsergebnisse werden nach Abschluss der Rechnungen mit Hilfe geeigneter, an die speziellen Ausgabeformate der verschiedenen Programme angepasste Parser automatisch extrahiert und auf elementare Plausibilität geprüft (Postprocessing). Auf Wunsch des Nutzers werden diese Ergebnisse in kollaborative Datenrepositorien molekularer Eigenschaften übernommen.  Hierbei kommen geeignete Beschreibungssprachen sowie ein "Minimum Information"-Konzept zur Anwendung.

Chemische Datenrepositorien
Der einfache Zugang zu verteilten Daten ist neben der gemeinsamen Nutzung von Rechenkapazität eine wesentliche Grundlage für die Akzeptanz von Grids und eScience in Wirtschaft und Wissenschaft.
Mit MoSGrid sollen die technologischen Grundlagen bereitgestellt werden, um durch aufwändige Molekülsimulationen erzeugte Rohdaten einer breiten Community für nachfolgende Data-Mining-Prozesse mit Hilfe von Parsern aufzubereiten und vorzuhalten. Dazu sollen Datenrepositorien geplant, aufgebaut und betrieben werden, die Wissenschaftler durch einen abgestimmten Zugang zu Simulationsdaten und den daraus abgeleiteten Informationen bei der Lösung komplexer Fragestellungen unterstützen. Als Konsequenz ergibt sich die Generierung von Metadaten als ein wichtiges Arbeitsziel von MoSGrid, um Simulationsergebnisse komplexen Such- und Verknüpfungsoperationen unterwerfen zu können. Hierzu werden anerkannte Ontologien benutzt, die durch MoSGrid-spezifische Anforderungen ergänzt werden können.

Ein wesentliches Element werden validierte Arbeitsabläufe und Simulationsvorschriften spielen, so dass die erzeugten Daten für gemeinsame Datenräume gewissen Mindeststandards gehorchen.
Die geplanten Datenrepositorien sind je nach Expertise der Datenerzeuger für einen breiten Kreis von Datennutzern innerhalb und außerhalb von MoSGrid von praktischer Bedeutung. Durch die molekularen Simulationen können themenspezifisch Daten für die Aufklärung von Struktur-Eigenschaftsbeziehungen erzeugt werden. Inhaltlich können dabei Themen aus

  • der Grundlagenforschung wie die Aufklärung von experimentellen Reaktionsphänomenen,
  • der angewandten Forschung wie die Optimierung von Werkstoffen und
  • der produktnahen Entwicklung wie die Klassifizierung von Wirkstoffkandidaten


abgedeckt werden. Diese breiten Themenfelder werden auch durch die Teilnahme namhafter Industriepartner in MoSGrid dokumentiert.

Der Wert des Projektes MoSGrid für Wirtschaft und Wissenschaft realisiert sich über die Qualität, inhaltliche Attraktivität und ausreichend breite Abdeckung der Daten, die durch Hochdurchsatzrechenszenarien im Grid überhaupt erst ökonomisch ermöglicht werden. Die dafür erforderliche Breite an Expertenwissen steht dem MoSGrid durch die beteiligten Partner aus Wirtschaft und Wissenschaft zur Verfügung.