HEP CG

Das Hochenergiephysik Community Grid

LHC (Cern)

Die Hochenergiephysik (HEP) untersucht die innerste Struktur von Materie, Raum und Zeit sowie die fundamentalen Kräfte im Universum. Die wichtigsten Werkzeuge sind riesige Detektoren an wenigen in der Welt verteilten Beschleunigerzentren. Jeder dieser Detektoren wird von einer weltweit verteilten Kollaboration von Wissenschaftlern genutzt.

Die HEP steht an der Schwelle einer neuen Ära. Der „Large Hadron Collider“ (LHC) beim CERN (der europäischen Organisation für Kernforschung in Genf/Schweiz) ging im Herbst 2008 in Betrieb. Teilchen werden in einem 27 km langen kreisförmigen Tunnel, ungefähr 100 Meter unter der Erde, beschleunigt und in den vier großen Detektoren ALICE, ATLAS, CMS und LHCb zur Kollision gebracht. Die Ziele sind u.a.: das noch fehlende Schlüsselteilchen des Standardmodells, das Higgs-Boson, nachzuweisen, Signaturen von potentiellen Erweiterungen des Standardmodells zu suchen, die Physik des Quark-Gluon-Plasmas zu studieren,  und die Verletzung von Ladungs- und Paritätssymmetrie zu verstehen, da diese für das Ungleichgewicht von Materie und Antimaterie bei der Geburt des Universums verantwortlich sein könnte.

Auch wenn der LHC wegen einem technischen Defekt bis Mitte 2009 keine Teilchenkollisionen erzeugen wird, wurden von den Detektoren schon 2008 mehrere hunderttausend  Gigabyte Daten aus der kosmischen Strahlung aufgenommen.
Um die riesigen Datenmengen der LHC-Experimente (15 Millionen Gigabyte pro Jahr) zu analysieren, entwickelte die HEP-Gemeinschaft eine weltweit verteilte Computing-Infrastruktur basierend auf der gLite Grid-Middleware, das Welt-LHC-Grid WLCG.

Eine Gruppe von Universitäten und Instituten aus der Teilchenphysik und Informatikgruppen der Grundlagenforschung (DESY Hamburg und Zeuthen, die GSI Darmstadt, die Technische Universität Dortmund, die Technische Universität Dresden, die LMU München, die Universität Siegen und die Universität Wuppertal) sind die Partner des HEP-Community-Grid-Projekt (HEPCG).  Im Rahmen der D-Grid Initiative ergänzt das HEPCG die vom WLCG zur Verfügung gestellte Software in den Bereichen verteilte Datenverwaltung, Job-Überwachung und verteilte Datenanalyse.

Der Schwerpunkt der drei Arbeitspakete liegt dabei auf der Benutzerfreundlichkeit.

1. Verteilte Datenverwaltung
Der LHC liefert einen Datenstrom von bis zu 1 Gigabyte/Sekunde, der auf einigen Dutzend Zentren in der Welt verteilt und dort gespeichert werden muss. Auch andere weltweit vernetzte Gruppen, wie z.B. das „International Lattice Data Grid“ profitieren von diesen Erfahrungen. Das Arbeitspaket 1 des HEPCG deckt einen breiten Bereich von Themen im Gebiet der Datenverwaltung ab und bietet fertige Lösungen an. Dies reicht von einem flexiblen und anpassbaren Metadaten-Katalog, um weltweit verteilte Daten verwalten zu können, bis zu einem hoch skalierbaren „Storage Element“, das in der Lage ist, Daten im Petabyte-Bereich zu speichern. Darüber hinaus wird eine Lösung zur Optimierung des Job-Scheduling in datenintensiven Anwendungen entwickelt.

2. Überwachung von Job und Ressourcenverbrauch
Um die Hunderte oder Tausende von Jobs, die ein Physiker zur Datenanalyse abschickt, überwachen zu können, werden intelligente Werkzeuge benötigt. Die existierenden Hilfsmittel aus der LCG/gLite-Umgebung stellen gegenwärtig nur die elementarsten  Funktionen zur Verfügung. Sie beziehen sich lediglich auf  die zugrunde liegende Infrastruktur, z.B. Hardware, oder es handelt sich um einfache Kommandozeilen-Programme, die den  Benutzer mit Textinformation überfluten. Die im HEPCG entwickelten Werkzeuge stellen dem Anwender eine graphische Oberfläche sowie detaillierte Information zum Status und Ressourcenverbrauch der jeweiligen Jobs zur Verfügung und geben Hinweise auf mögliche Probleme. Sie überwachen die Ausführung der Job-Skripte und sammeln Informationen über Fehler. Sie geben Hinweise, wie Fehler  behoben werden können. Auf Grund  von Zwischenergebnissen kann in den laufenden  Job eingegriffen werden.

3. Verteilte Datenanalyse
Verteilte Datenanalyse unter Verwendung von Grid-Ressourcen ist eine der wichtigsten Anwendungen in der HEP. In jedem Experiment werden bis zu tausend Physiker Analyse-Jobs in das Grid schicken. Geeignete Benutzerschnittstellen und Hilfsapplikationen müssen sicherstellen, dass alle Physiker das Grid verwenden können.