C3Grid

Das C3Grid im Umfeld internationaler Herausforderungen durch IPCC

Abb. 1: Datensuche im C3Grid

Der globale Klimawandel stellt derzeit eine der größten Herausforderungen für die Menschheit dar. Trotz teilweise kontroverser Diskussionen über die konkret zu erwartenden Klimaänderungen in den unterschiedlichen Regionen herrscht unter Experten weitgehend Einigkeit darüber, dass sich das Klima langfristig verändert und dass der Mensch zumindest teilweise diese Veränderung durch die Freisetzung von Klimagasen verursacht.

Die Wissenschaftler der Erdsystemforschung haben die Aufgabe, belastbare Abschätzungen der Klimaveränderungen als Entscheidungsgrundlage für Maßnahmen zur Begrenzung des Klimawandels und für notwendige Anpassungsstrategien zu liefern. Dazu müssen die vielfältigen Prozesse im komplexen System Erde immer besser verstanden und die Modelle weiter verbessert werden. Eine wichtige Voraussetzung dafür ist die Verknüpfung möglichst vieler Datenquellen. Dies wird aber erschwert durch die Tatsache, dass die Datenarchive in der Klimaforschung wegen der enormen Datenmengen und der Heterogenität der Daten verteilt sind.
Das „Collaborative Climate Community Data and Processing Grid“ (C3Grid) bietet mit der Nutzung der Grid-Technologie eine Lösung dieses Problems. In dem gleichnamigen D-Grid-Projekt  konnte eine prototypische Grid-Infrastruktur entwickelt und aufgebaut werden, mit deren Hilfe die Wissenschaftler der Klimacommunity einen einheitlichen Zugang zu den verteilten Datenarchiven an den beteiligten Einrichtungen erhalten.

Dabei werden community-spezifische Anforderungen beim Umgang mit den meist hochvolumigen Daten wie die Möglichkeit eines integrierten Preprocessing der Daten bei den Datenprovidern und die Möglichkeit für verteilte Analysen umgesetzt. Die Architektur umfasst sowohl Standard-Gridkomponenten wie das Globus Toolkit 4.0.x als auch eigene Entwicklungen, um die speziellen Bedürfnisse der Klimawissenschaftler im Grid zu befriedigen.

Die verschiedenen Datenanbieter liefern die Informationen über ihre Daten in einen zentralen Metadatenkatalog (A). Bei einer Nutzeranfrage kann die interessierende Datei gefunden und beim jeweiligen Datenanbieter der Zugriff und nutzerspezifizierte Proprocessing-Operationen wie das Ausschneiden bestimmter Regionen oder Zeitscheiben initiiert werden. Die Daten werden in einem Collaborativen Grid-Arbeitsbereich (B) abgelegt und können danach noch weiter mit Analyse-Tools bearbeitet werden. Als Ergebnis entstehen abgeleitete Daten und Metadaten (C). Falls diese von allgemeinerem Interesse sind und öfter nachgefragt werden, können diese Daten auch wieder zurück in das Archiv der Datenprovider integriert werden.

In diesem Jahr beginnen die weltweiten Simulationsrechnungen zur Vorbereitung des 5. Sachstandsberichts des Intergovernmental Panel on Climate Change (IPCC AR5), um Risiken der globalen Erwärmung zu beurteilen und Vermeidungsstrategien zusammenzutragen. Etwa 1000 Wissenschaftler werden sich an der Erstellung dieses Berichts beteiligen, dessen Ergebnisse von schätzungsweise 100.000  bis 1.000.000 Menschen weltweit genutzt werden. Die dabei entstehenden Datenmengen werden mit insgesamt ca. 30 PB abgeschätzt, so dass ein zentrales Datenarchiv nicht mehr realisierbar ist. Daher sind einige global verteilte Datenknoten geplant, die sich diese Aufgaben teilen und in einer gemeinsamen Struktur zusammenarbeiten sollen. Etwa 10% der Daten, die die wichtigsten Variablen umfassen, werden als sogenannte „core Daten“ am föderierten Verbund von PCMDI, BADC und dem WDC/DKRZ zugreifbar sein.

Die Funktionalität wird sich auf Suchen, Finden, Selektieren und über das Internet Herunterladen beschränken. Daten-Processing wie das Ausschneiden geographischer Gebiete und Formatwandlungen werden nicht oder nur sehr vereinzelt angeboten werden können. An dieser Stelle kann die C3Grid Infrastruktur mit ihrem Daten-Processing-Grid zum Einsatz kommen. Die Erschließung des verteilten AR5 Datenarchivs durch das C3Grid kann damit einen echten Mehrwert insbesondere für nationale Nutzer bedeuten.

Die föderierte Datenstruktur geht von verteilten Datenknoten aus. Sie verfügen jeweils über die Rohdaten, ein Zugriffsinterface und eine einfache Applikationsschicht, die z.B. für die Publikation der Metadaten verantwortlich ist. An den sogenannten Gateways werden dann höherwertige Dienste angeboten wie die Nutzerregistrierung, Tools für das Browsen der Daten und die qualifizierte Suche nach speziellen Datensätzen, Mechanismen für die Autorisierung sowie für die Generierung von Datenprodukten. Dabei muss die Interoperabilität zwischen den einzelnen Grids gewährleistet werden.

C3Grid wird sich an diesen Entwicklungen aktiv beteiligen und den deutschen Beitrag zu diesem ambitionierten Vorhaben unterstützen.