Assessment of different BLAS/LAPACK implementations on AMD EPYC Rome processors

Student Research Project / Master Thesis

Contact: Björn Dick <dick@hlrs.de>

Background:

Doing computer simulations of real-world processes often requires to do a lot of (basic) linear algebra operations. Hence, processor manufacturers typically provide highly optimized libraries that can do those operations in an efficient manner. It’s nevertheless possible to use different implementations on a given processor. The idea of this project is to compare and assess different implementations of those libraries on HLRS’ current supercomputer “Hawk” (5632 compute nodes with 2 x 64 AMD EPYC Rome cores each) with respect to runtime and energy efficiency.

Scope:

  1. Identifying relevant routines and input datasets based on production jobs of HLRS customers.
  2. Compiling, running and profiling compute jobs with different BLAS/LAPACK implementations for the routines and input datasets identified before.
  3. Assessing results and deducing recommendations.

Profile:

  • Basic knowledge of linear algebra and basic understanding of the routines implemented in BLAS/LAPACK.
  • Strong command in Linux-based environments, in particular building codes with GNU Autotools/make and CMake.
  • Ideally initial experience in the usage of Score-P, Cube and maybe Scalasca
  • Ideally initial experience in High-Performance Computing environments

Machine Learning & Artificial Intelligence applied to Short-Term Photovoltaic Power Forecasting

Student Research Project / Master ThesisMachine Learning & Artificial Intelligence applied to Short-Term Photovoltaic Power Forecasting

Contact: Martín Herrerías < herrerias@hlrs.de >

Background:

Accurate short-term and very-short-term renewable energy production forecasts are critical instruments for the energy transition, as they support grid operators, plant owners, and energy traders in coping with the natural variability of the renewable resources.In the framework of the HyForPV project, HLRS is combining hybrid irradiance forecasts (satellite + numerical weather models + sky-imagers) with very detailed Photovoltaic (PV) Plant physical models to improve the accuracy of short-term regional PV production forecasts. A natural benchmark/extension to this approach is to use purely data-driven methods or hybrid statistical-physical methods; combining existing irradiance forecasts, site measurements, and physical model features, to provide fast and accurate estimates of PV power production.

Scope: Review of the extensive literature on ML & AI methods applied to short-term PV forecasting. Identification of adequate performance criteria. Selection, implementation, and cross comparison of the most promising methods.Detailed documentation (code, methods, and results).

Profile: Fluency in the programming language of your choice.Experience with ML & AI methods (ANN’s, SVM’s, autoregressive models,…).Fluent English in speaking and writing.Basic understanding of PV systems (favourable).Experience with MATLAB and Linux environments (favourable).

Abschlussvortrag Masterarbeit

Am Donnerstag, den 19.12.2019 um 13:30 Uhr wird Herr Felix Lippkau seine
Masterarbeit über das Thema

“Analyse, Optimierung & Implementierung einer Parallelisierungsstrategie
eines Mehrgitterlösers für die Berechnung von Mehrphasenströmungen unter Verwendung von direkt numerischer Simulation anhand des Strömungslösers FS3D” präsentieren.

Der Vortrag findet im Raum 1.077 (Kino) statt.

BA oder MA Arbeit zu vergeben

Implementierung einer automatisierten
Metadatenerfassung im HPC-Umfeld

Forschungsdatenmanagment in den Ingenieurwissenschaften steht vor einigen Herausforderungen, insbesondere die Größe der Daten sowie deren Verwaltung ist problembehaftet. Auch heutzutage werden die im Forschungsprozess anfallenden, durch Simulation erzeugten Forschungsdaten, die z.B. Trajektorien von Molekülen oder Strömungsverhalten repräsentieren, oft nur über Datei- oder
Verzeichnisnamen verwaltet, was sich zusehens als unzureichend herausstellt.
Für zielgerichtetes Forschungsdatenmanagement unabdingbar ist die Benutzung von Metadaten. Metadaten sind Daten über Daten und beschreiben diese von höherer Ebene ausgehend inhaltlich.
Metadaten sind eine der wesentlichen Voraussetzungen, Daten FAIR (Findable, Accessible, Interoperable, Re-usable) [1] bereitzustellen. Das Projekt DIPL-ING [2] hat sich zum Ziel gesetzt, Konzepte und Lösungen für das Forschungsdatenmanagement in den Ingenieurwissenschaften zu entwickeln und Daten FAIR zu machen. Innerhalb des Projekts wurde das Metadatenmodell EngMeta für die Thermound Aerodynamik entwickelt [3]. Als eine der wesentlichen Anforderungen für gelingendes Forschungsdatenmanagement kristallisierte sich die automatisierte Erfassung von Metadaten heraus sowie die Nutzung eines zentralen, fachspezifischen Repositoriums.

Ziele und Aufgaben
Im Rahmen der Arbeit, welche sowohl als Bachelor- als auch als Masterarbeit ausgestaltet werden kann, sollen 1. die automatisierte Erfassung von Metadaten weiterentwickelt und 2. Schnittstellen zum
Repositorium (Dataverse) erstellt und programmiert werden.
– Erweiterung der automatisierten Erfassung von Metadaten: Ein bestehendes, prototypisches auf
Java/Spark basierendes und für Gromacs-Dateien aus thermodynamischer Simulation ausgelegtes System soll weiter implementiert werden. Dies umfasst einerseits die Erweiterung auf andere Dateiformate (aus Simulationspaketen der Aerodynamik). Andererseits soll die
prototypische Implementierung möglichst in eine systemnahe, native und leichtgewichtige Implementierung überführt werden.
– Anpassung und (Weiter)-Entwicklung des Dataverse Clients (Java), so dass Daten und Metadaten auf dem Dateisystem in der Höchstleisungsrechnerumgebung am HLRS in das universitätsweite Repositorium für Forschungsdaten geschrieben und wieder empfangen werden können. Dazu muss der Dataverse-Client zunächst auf seine bestehende Funktionalität hin analysiert und ggf. erweitert und angepasst werden.

Schließlich müssen die Ergebnisse in einer schriftlichen Ausarbeitung, die wissenschaftlichen Standards genügen und sich nach den allgemeinen Bestimmungen im jeweiligen Fachbereich richten muss, vorgelegt werden. Außerdem muss die Arbeit in einem Vortrag vorgestellt werden.

Anforderungen
Der/Die Berarbeiter/in bringt Linux-Kenntnisse mit, die auch Shell-Scripting umfassen. Außerdem werden Kenntnisse in der Sprache Java vorausgesetzt. Idealerweise wird das Profil ergänzt durch Kenntnisse im Bereich Simulation und Benutzung von Cluster-Systemen.

Betreuer:
Dipl.-Inf. Björn Schembera
Prof. Dr.-Ing. Michael M. Resch

Ausgabe und Kontakt:
ab sofort, bei Interesse oder Fragen bitte an Herrn Björn Schembera (schembera@hlrs.de) wenden.

Referenzen
[1] Wilkinson, M.D., Dumontier, M., Aalbersberg, I.J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.W., da Silva Santos, L.B., Bourne, P.E., et al.: The fair guiding principles for scientific data management and stewardship. Scientific data 3 (2016)
[2] https://www.hlrs.de/about-us/research/current-projects/dipl-ing/
[3] Schembera, Björn und Dorothea Iglezakis (2018). „The Genesis of EngMeta – A Metadata Model for Research Data in Computational Engineering“. In: Metadata and Semantic Research. 12th International
Conference, MTSR 2018, Limassol, Cyprus, 23-26 October 2018, Proceedings. Springer.

Masterarbeit zu vergeben

Masterarbeit:

Analyse und Optimierung der Parallelisierungsstrategie des Mehrgitterlösers in FS3D

Zielsetzung:
Das Programmpaket Free Surface (FS3D) ist ein am ITLR entwickelter Code zur Direkten Numerischen Simulation (DNS) von Mehrphasenströmungen mit Hilfe der Volume-of-Fluid (VOF) Methode. FS3D wird zum Beispiel zur Simulation von Phasenwechselvorgängen oder tropfendynamischer
Prozesse eingesetzt. Die bei diesen Simulationen notwendige, sehr hohe räumliche Auflösung macht es unerlässlich die anfallende Rechenlast auf eine große Anzahl an Prozessoren zu verteilen. FS3D verwendet zur Parallelisierung das Message Passing Interface (MPI).
Zur effizienten Lösung der Druckausbreitung kommt ein Mehrgitterlöser zum Einsatz. Analysen der Performance von FS3D zeigen, das im Bereich der Implementierung des Mehrgitterlösers Optimierungspotenzial besteht.

Im Rahmen dieser Arbeit soll die Parallelisierungsstrategie der bestehenden Implementierung des Mehrgitterlösers analysiert und auf Basis dieser Analyse eine neue, effizientere Parallelisierungsstrategie erarbeitet werden.
Im Anschluss daran ist die Performance der neuen Parallelisierungsstrategie zu analysieren und mit der bestehenden Parallelisierungsstrategie zu vergleichen.

Arbeitsschritte:
– Einarbeitung und Analyse der bestehenden Implementierung des Mehrgitterlösers
– Literaturrecherche zu Implementierung von parallelen Mehrgitterlösern
– Entwicklung einer effizienten Parallelisierungsstrategie für den Mehrgitterlöser in FS3D
– Implementierung der entwickelten Parallelisierungsstrategie des Mehrgitterlösers in FS3D
– Analyse der Performance der neu implementierten Parallelisierungsstrategie des Mehrgitterlösers und Vergleich mit der bestehenden Implementierung
– Schriftliche Dokumentation und Diskussion der Ergebnisse

Voraussetzungen:
– Grundkenntnisse in Linux und Fortran

Betreuer:
– Prof. Dr.-Ing. Michael M. Resch
– Dipl.-Ing. Philipp Offenhäuser (offenhaeuser@hlrs.de), HLRS
– Dipl.-Ing. Martin Reitzle, ITLR
– Toni Peter, M.Sc., HLRS


Ausgabe: ab sofort, bei Interesse bitte Philipp Offenhäuser (offenhaeuser@hlrs.de) kontaktieren

Masterarbeit “Analyse und Optimierung der Parallelisierungsstrategie des Mehrgitterlösers in FS3D”

Zielsetzung:

Das Programmpaket Free Surface (FS3D) ist ein am ITLR entwickelter Code zur Direkten Numerischen Simulation (DNS) von Mehrphasenströmungen mit Hilfe der Volume-of-Fluid (VOF) Methode. FS3D wird zum Beispiel zur Simulation von Phasenwechselvorgängen oder tropfendynamischer Prozesse eingesetzt. Die bei diesen Simulationen notwendige, sehr hohe räumliche Auflösung macht es unerlässlich die anfallende Rechenlast auf eine große Anzahl an Prozessoren zu verteilen. FS3D verwendet zur Parallelisierung das Message Passing Interface (MPI). Zur effizienten Lösung der Druckausbreitung kommt ein Mehrgitterlöser zum Einsatz. Analysen der Performance von FS3D zeigen, das im Bereich der Implementierung des Mehrgitterlösers Optimierungspotenzial besteht. Im Rahmen dieser Arbeit soll die Parallelisierungsstrategie der bestehenden Implementierung des Mehrgitterlösers analysiert und auf Basis dieser Analyse eine neue, effizientere Parallelisierungsstrategie erarbeitet werden. Im Anschluss daran ist die Performance der neuen Parallelisierungsstrategie zu analysieren und mit der bestehenden Parallelisierungsstrategie zu vergleichen.

Arbeitsschritte:

  • Einarbeitung und Analyse der bestehenden Implementierung des Mehrgitterlösers
  • Literaturrecherche zu Implementierung von parallelen Mehrgitterlösern
  • Entwicklung einer effizienten Parallelisierungsstrategie für den Mehrgitterlöser in FS3D
  • Implementierung der entwickelten Parallelisierungsstrategie des Mehrgitterlösers in FS3D
  • Analyse der Performance der neu implementierten Parallelisierungsstrategie des Mehrgitterlösers und Vergleich mit der bestehenden Implementierung
  • Schriftliche Dokumentation und Diskussion der Ergebnisse

Voraussetzungen:

  • Grundkenntnisse in Linux und Fortran

Betreuer:

  • Prof. Dr.-Ing. Michael M. Resch
  • Dipl.-Ing. Philipp Offenhäuser (offenhaeuser@hlrs.de), HLRS
  • Dipl.-Ing. Martin Reitzle, ITLR
  • Toni Peter, M.Sc., HLRS

Ausgabe: ab sofort, bei Interesse bitte Philipp Offenhäuser (offenhaeuser@hlrs.de) kontaktieren

Bachelor- oder Masterarbeit “Implementierung einer automatisierten Metadatenerfassung im HPC-Umfeld”

Forschungsdatenmanagment in den Ingenieurwissenschaften steht vor einigen Herausforderungen, insbesondere die Größe der Daten sowie deren Verwaltung ist problembehaftet. Auch heutzutage werden die im Forschungsprozess anfallenden, durch Simulation erzeugten Forschungsdaten, die z.B. Trajektorien von Molekülen oder Strömungsverhalten repräsentieren, oft nur über Datei- oder Verzeichnisnamen verwaltet, was sich zusehens als unzureichend herausstellt.

Für zielgerichtetes Forschungsdatenmanagement unabdingbar ist die Benutzung von Metadaten. Metadaten sind Daten über Daten und beschreiben diese von höherer Ebene ausgehend inhaltlich. Metadaten sind eine der wesentlichen Voraussetzungen, Daten FAIR (Findable, Accessible, Interoperable, Re-usable) [1] bereitzustellen. Das Projekt DIPL-ING [2] hat sich zum Ziel gesetzt, Konzepte und Lösungen für das Forschungsdatenmanagement in den Ingenieurwissenschaften zu entwickeln und Daten FAIR zu machen. Innerhalb des Projekts wurde das Metadatenmodell EngMeta für die Thermound Aerodynamik entwickelt [3]. Als eine der wesentlichen Anforderungen für gelingendes Forschungsdatenmanagement kristallisierte sich die automatisierte Erfassung von Metadaten heraus sowie die Nutzung eines zentralen, fachspezifischen Repositoriums.

Ziele und Aufgaben

Im Rahmen der Arbeit, welche sowohl als Bachelor- als auch als Masterarbeit ausgestaltet werden kann, sollen 1. die automatisierte Erfassung von Metadaten weiterentwickelt und 2. Schnittstellen zum Repositorium (Dataverse) erstellt und programmiert werden.

  • Erweiterung der automatisierten Erfassung von Metadaten: Ein bestehendes, prototypisches auf Java/Spark basierendes und für Gromacs-Dateien aus thermodynamischer Simulation ausgelegtes System soll weiter implementiert werden. Dies umfasst einerseits die Erweiterung auf andere Dateiformate (aus Simulationspaketen der Aerodynamik). Andererseits soll die prototypische Implementierung möglichst in eine systemnahe, native und leichtgewichtige Implementierung überführt werden.
  • Anpassung und (Weiter)-Entwicklung des Dataverse Clients (Java), so dass Daten und Metadaten auf dem Dateisystem in der Höchstleistungsrechner-Umgebung am HLRS in das universitätsweite Repositorium für Forschungsdaten geschrieben und wieder empfangen werden können. Dazu muss der Dataverse-Client zunächst auf seine bestehende Funktionalität hin analysiert und ggf. erweitert und angepasst werden.

Schließlich müssen die Ergebnisse in einer schriftlichen Ausarbeitung, die wissenschaftlichen Standards genügen und sich nach den allgemeinen Bestimmungen im jeweiligen Fachbereich richten muss, vorgelegt werden. Außerdem muss die Arbeit in einem Vortrag vorgestellt werden.

Anforderungen

Der/Die Berarbeiter/in bringt Linux-Kenntnisse mit, die auch Shell-Scripting umfassen. Außerdem werden Kenntnisse in der Sprache Java vorausgesetzt. Idealerweise wird das Profil ergänzt durch Kenntnisse im Bereich Simulation und Benutzung von Cluster-Systemen.

Betreuer:

Dipl.-Inf. Björn Schembera
Prof. Dr.-Ing. Michael M. Resch

Ausgabe und Kontakt:

ab sofort, bei Interesse oder Fragen bitte an Herrn Björn Schembera (schembera@hlrs.de) wenden

Referenzen

[1] Wilkinson, M.D., Dumontier, M., Aalbersberg, I.J., Appleton, G., Axton, M., Baak, A., Blomberg, N., Boiten, J.W., da Silva Santos, L.B., Bourne, P.E., et al.: The fair guiding principles for scientific data management and stewardship. Scientific data 3 (2016)
[2] https://www.hlrs.de/about-us/research/current-projects/dipl-ing/
[3] Schembera, Björn und Dorothea Iglezakis (2018). „The Genesis of EngMeta – A Metadata Model for Research Data in Computational Engineering“. In: Metadata and Semantic Research. 12th International Conference, MTSR 2018, Limassol, Cyprus, 23-26 October 2018, Proceedings. Springer.