Studien-/ Abschlussarbeit

Erweiterung der Parsingfunktionalität einer
automatisierten Metadatenerfassung im HPC-Umfeld

In der Bachelorarbeit soll eine bereits bestehende Metadatenerfassung, die am HLRS entworfen wurden, weiterentwickelt und um Funktionalitäten erweitert werden. Heutzutage werden die im Forschungsprozess anfallenden, durch Simulation erzeugten Forschungsdaten, die z.B. Trajektorien von Molekülen oder Strömungsverhalten repräsentieren, oft nur über Datei- oder Verzeichnisnamen verwaltet, was sich zusehens als unzureichend herausstellt.

Heutzutage werden die im Forschungsprozess anfallenden, durch Simulation erzeugten Forschungsdaten, die z.B. Trajektorien von Molekülen oder Strömungsverhalten repräsentieren, oft nur über Datei- oder Verzeichnisnamen verwaltet, was sich zusehens als unzureichend herausstellt.

Für zielgerichtetes Forschungsdatenmanagement unabdingbar ist die Benutzung von Metadaten. Metadaten sind Daten über Daten und beschreiben diese von höherer Ebene ausgehend inhaltlich. Metadaten sind eine der wesentlichen Voraussetzungen, Daten FAIR (Findable, Accessible, Interoperable, Reusable) [1] bereitzustellen. Im Rahmen von Projektarbeiten wurden Konzepte und Lösungen für das Forschungsdatenmanagement in den Ingenieurwissenschaften entwickelt, u.a. das Metadatenmodell EngMeta für die Thermo- und Aerodynamik [2, 3]. Als eine der wesentlichen Anforderungen für gelingendes Forschungsdatenmanagement kristallisierte sich die automatisierte Erfassung von Metadaten heraus. Hierfür wurde das Tool ExtractIng entwickelt [4].

Ziele und Aufgaben

Im Rahmen der Bachelorarbeit soll die automatisierte Erfassung von Metadaten mit ExtractIng weiterentwickelt werden. Dazu soll dieses bestehende, prototypische Tool, welches auf der Java Scanner API sowie alternativ auf dem Spark Data Analytics Framework besteht, um verschiedene Funktionalitäten erweitert werden. Dies umfasst die spezifischen Aufgaben:

  • Ersatz des genutzten JAXB Frameworks bzw. Anpassung des Tools, um Kompatibilität mit Java > 8 herzustellen
  • Analyse und Implementierung von elaborierten Parsingmethoden und Pattern Matching Algorithmen, u.a. für hierarchische Informationen, mehrzeilige Informationen, … . Hierzu auch technologische Analyse des Xtract Metadatenerfassungstools.
  • Entwicklung einer Strategie zum Umgang mit Redundanzen und Mehrfachvorkommen in den Datenquellen. Umsetzung und Implementierung dieser Strategie.

Schließlich müssen die Ergebnisse in einer schriftlichen Ausarbeitung, die wissenschaftlichen Standards genügen und sich nach den allgemeinen Bestimmungen im jeweiligen Fachbereich richten muss, vorgelegt werden. Außerdem muss die Arbeit in einem Vortrag von 20-30min Länge vorgestellt werden.

Anforderungen
Der/Die Berarbeiter/in bringt Linux-Kenntnisse mit, die auch Shell-Scripting umfassen. Außerdem werden Kenntnisse in der Sprache Java vorausgesetzt. Idealerweise wird das Profil ergänzt durch Kenntnisse im Bereich Simulation und Benutzung von Cluster-Systemen.


Betreuer
Dr.-Ing. Björn Schembera


Prüfer
Prof. Dr.-Ing. Michael M. Resch


Ausgabe und Kontakt
Ab sofort, bei Interesse oder Fragen bitte an Herrn Dr.-Ing. Björn Schembera (schembera@hlrs.de) wenden

Referenzen
[1] Wilkinson, M.D., Dumontier, M., Aalbersberg, I.J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.W., da Silva Santos, L.B., Bourne, P.E., et al.: The fair guiding principles for scientific data management and stewardship. Scientific data 3 (2016)
[2] Schembera, Björn und Dorothea Iglezakis (2018). „The Genesis of EngMeta – A Metadata Model for Research Data in Computational Engineering“. In: Metadata and Semantic Research. 12th International
Conference, MTSR 2018, Limassol, Cyprus, 23-26 October 2018, Proceedings. Springer.
[3] https://www.ub.uni-stuttgart.de/forschen-publizieren/forschungsdatenmanagement/projekte/dipl_ing/
materials/output/MTSR2018_14_SchemberaIglezakis_EngMeta.pdf
[4] Schembera, B. Like a rainbow in the dark: metadata annotation for HPC applications in the age of dark data. J Supercomput (2021). https://doi.org/10.1007/s11227-020-03602-6