Das Programmierpraktikum Datensysteme ist ein 6 ECTS Kurs der zum Ziel hat Methoden der Softwaretechnik praktisch anhand einer komplexen Aufgabenstellung zu erproben, Teamerfahrungen zu sammeln, und Methoden der effizienten Implementierung ausgewählter Komponenten von Datenbanksystemen kennen zu lernen. Zu Beginn jedes Semesters wird ein neues Projekt (oder mehrere) im Kontext der Implementierung von Datenbanksystemen (z.B., Indexstrukturen, Operatoren wie Joins oder Aggregationen, Bufferpool mit Seitenverdrängung) definiert. Die Studierenden erhalten die API dieser Komponente sowie ausgewählte Benchmarks, und die Aufgabe ist es in selbstorganisierten Teams von 4 Personen korrekte Implementierungen in C, C++, oder Java zu erstellen. Neben der Protypenentwicklung sind auch der systematische Umgang mit Versionsverwaltung, testgetriebener Entwicklung, Entwurfsdokumentation, sowie Laufzeitexperimenten und -verbesserungen von großer Bedeutung. Gleichzeitig erlaubt dieses Programmierpraktikum den Umgang mit vertiefenden Methoden der Gebiete Informationssysteme und Datenanalyse sowie Algorithmen und Datenstrukturen. Der Schwerpunkt liegt jedoch auf dem Erlernen des problemorientieren Einsatzes von Programmierkenntnissen zur Lösung konkreter Fragestellungen, nicht die ganzheitliche funktionale Betrachtung der Implementierung von Datenbanksystemen.
Das Programmierpraktikum hat eine Gesamtkapazität von 60 Studierenden, wobei drei Instanzen mit leicht unterschiedlicher thematischer Ausrichtung durch die Fachgebiete DAMS, DEEM, und D2IP angeboten werden (mit gemeinsamen Kickoff und Abschlusspräsentationen in BH-N 333, ansonsten alternierend; Montag 16-17.30 Uhr im B 106). PPDS ist unbenotet, jedoch werden die folgende Prüfungselemente zur Evaluierung eines positiven Abschlusses einbezogen:
Kapazität: 28/60 Studierende (7 Teams a 4 Studierende)
API/Reference C/C++: ppds_ref_cpp.zip (last update: Apr 22)
API Java: TBD
Task Description: Die Aufgabe besteht darin, einen effizienten In-Memory-Join-Pipeline-Executor und entsprechende Operatoren zu implementieren, die auf verschiedenen Hardwarearchitekturen mit unterschiedlichen Eigenschaften eine hohe Performance erzielen. Die Basisdaten der Join-Pipeline werden als In-Memory-Tabellen inklusive Metadaten bereitgestellt, und der Join-Plan (bestehend aus zwei bis sieben Joins ohne andere Operatoren) ist vorgegeben. Ziel ist es, die End-to-End-Laufzeit bis zur vollständigen Berechnung der Ergebnis-In-Memory-Tabelle zu minimieren. Implementierungen können verschiedene Techniken nutzen, darunter Multithreading, Bloom-Filter, Join-Order-Optimierung, oder SIMD. Der Code wird auf unterschiedlichen Hardwareplattformen kompiliert und ausgeführt.
Vorlesungen: