Neues Analyse-Tool für Datenbankmanagementsysteme aus Ulm
Mowgli weist den Weg im Datenbanken-Dschungel
Im Zuge der Digitalisierung wächst der weltweite Datenberg unaufhaltsam. Reichte es noch vor ein paar Jahren aus, Auftrags- und Kundendaten in herkömmlichen Datenbanken zu verwalten, übersteigen neue Anwendungen wie das Internet der Dinge (IoT), das automatisierte Fahren oder die Digitalisierung von Produktion und Logistik („Industrie 4.0“) schnell deren Fähigkeiten. Daher sind neue Systeme gefragt, die enorme, konstant wachsende Datenmengen speichern und verarbeiten können.
Beim automatisierten Fahren werden beispielsweise konstant große Datenmengen erzeugt, die gespeichert und verarbeitet werden wollen: In Echtzeit generiert das Fahrzeug technische Informationen sowie etwa Daten zur eigenen Position und zur Umgebung. Ähnliches gilt für die smarte Stadt oder die digitalisierte Fabrik. „Auf der Suche nach dem optimalen Datenbankmanagementsystem müssen sich Nutzer fragen, was für Anforderungen sie an das DBMS-System stellen: Welche Auslastung wird im konkreten Anwendungsfall erwartet? Und über welche Zeit ist ein Systemausfall tolerierbar?“, fragt Dr. Jörg Domaschka, Gruppenleiter am OMI. Denn während ein wenige Sekunden andauernder Systemausfall im Kontext automatisiertes Fahren lebensbedrohlich sein kann, hat er im Smart Home oft keine großen Konsequenzen.
Als vielversprechende Kombination im Kontext „Big Data“ hat sich ein Zusammenspiel aus verteilten Datenbankmanagementsystemen und Cloud-Ressourcen erwiesen. Durch die verteilte Systemarchitektur können bei wachsenden Datenmengen und Nutzerzugriffen neue Instanzen zum DBMS hinzugefügt werden. Weiterhin lässt sich das System dynamisch während der Laufzeit an die Auslastung anpassen. Zudem bieten Cloud- Anbieter scheinbar endlose Ressourcen an, die auf Knopfdruck abgerufen und hinzugefügt werden können. Inzwischen haben Nutzer sogar die Qual der Wahl: Sie müssen sich zwischen rund 200 verteilten Datenbankmanagementsystemen mit unterschiedlicher Betreibbarkeit in der Cloud und 20 000 Cloud-Ressourcen entscheiden. entsprechenden Kombinationen haben wiederum ganz individuelle Eigenschaften, was Leistung, Skalierbarkeit oder etwa Verfügbarkeit angeht. Wer soll in diesem Datenbank- Dschungel den Durchblick behalten? Ausgehend von diesem Problem haben die Forscher vom Institut für Organisation und Management von Informationssystemen der Universität Ulm und von Daimler TSS „Mowgli“ entwickelt. Dieses Tool zur automatischen Evaluation verteilter DBMS in der Cloud spielt typische Anwendungsszenarien durch und wertet die Leistungsfähigkeit der einzelnen Systeme aus: „Die Automatisierung der Tests erlaubt eine Vielfalt und Komplexität, die bei einem händischen Vergleich der Systeme unmöglich wäre. Bei solchen händischen Tests müsste die Komplexität wirklich sehr stark reduziert werden, um den zeitlichen Rahmen nicht zu sprengen. Und selbst bei der automatisierten Auswertung durch Mowgli dauert es ein bis zwei Tage, bis wir eine Empfehlung für ein Datenbankmanagementsystem ableiten können“, so Daniel Seybold, Wissenschaftlicher Mitarbeiter am OMI. Zwar sind die Informatiker nicht die ersten Anbieter eines solchen Benchmark-Systems, allerdings ist die Anzahl der einbezogenen Variablen bei Mowgli ungewöhnlich groß. Das Tool unterstützt bereits eine Vielzahl von DBMS mit einer beliebigen Anzahl von Instanzen und bezieht unterschiedliche Cloud-Anbieter mit ein.
Die im Laufe des einjährigen Projekts entstandene Veröffentlichung „Mowgli: Finding your way in the DBMS Jungle“ ist von Daniel Seybold auf der Tagung „ACM/SPEC International Conference on Performance Engineering“ vorgestellt und sogleich ausgezeichnet worden. Bei Daimler TSS war das Analyse-Werkzeug bereits im Einsatz und es wird im EU-Projekt „Melodic“ (Multi-cloud Execution-ware for Large-scale Optimised Data-Intensive Computing) der Uni Ulm verwendet. Die Entwickler können sicher sein, dass ihrem Mowgli auch in Zukunft die Aufträge nicht ausgehen: Denn der Datenberg wächst umgebremst weiter.