Einblicke in die skalierbare Infrastruktur des Big Data Lake. Damit sollen Unternehmen alle relevanten Daten zentral speichern und später bei Bedarf abrufen können.
Foto: WZL

IT-Lösungen

Big Data Lake: Alle Daten dauerhaft zentral gespeichert

Mit dem zentralen "Big Data Lake"-Konzept will das WZL gleich zwei Herausforderungen bei der Speicherung und Nutzung großer Datenmengen in Angriff nehmen.

Vermutlich alle produzierenden Unternehmen und Forschungseinrichtungen stehen vor der Frage, welche Daten in Anbetracht späterer Verwendung relevant sind − und daher erfasst sowie zentral gespeichert werden müssen. Am Lehrstuhl für Technologie der Fertigungsverfahren des Werkzeugmaschinenlabor WZL der RWTH Aachen hat sich diese Herausforderung jetzt extrem vereinfacht, sodass die Antwort zukünftig lautet: Alle!

Nie mehr ein Datum verlieren!

„Nie mehr auch nur ein Datum der eigenen Fertigung verlieren, ob aus der Maschine, den Werkzeugen oder der Qualitätskontrolle“, so sollte die Vision sein, statiert Prof. Thomas Bergs, Geschäftsführender Direktor des WZL und Inhaber des Lehrstuhls für Technologie der Fertigungsverfahren.

„Mit dem Big Data Lake Konzept ist uns das nun gelungen. Fertigungsdaten werden nach einer minimalen Vorverarbeitung so roh wie möglich auf einem leicht skalierbaren, mehrfach verteilten Dateisystem im eigenen Netzwerk zentral persistiert. So können wir auch in Zukunft, wenn sich Fragestellungen ändern oder neue Blickwinkel auf die Daten relevant werden, auf valide historische Daten zurückgreifen“, führt Dr. Daniel Trauth, CDO und Oberingenieur für Digitale Transformation am Lehrstuhl für Technologie der Fertigungsverfahren, weiter aus.

Datenbasis für präzise KI-Algorithmen

„Zwei Probleme fertigungsüblicher Daten werden mit dem Big Data Lake Konzept gleichzeitig gelöst“, erklärt Joachim Stanke, Senior Solution Architect am Lehrstuhl. „Zum einen können günstig große Datenmengen näherungsweise im Rohformat dauerhaft gespeichert werden, sodass sie eine perfekte Datenbasis für das Anlernen und Modellieren von extrem präzisen KI-Algorithmen sind. Zum anderen können diese entwickelten KI-Algorithmen wiederum auf die rasanten Datenströme fertigender Maschinen angewandt werden, um näherungsweise in Echtzeit eine Entscheidungsfindung für Prozess, Maschine oder Peripherie abzuleiten.“

Stabile Hardware für viele Daten

Hardwareseitig setzt das WZL dabei auf die stabile und zuverlässige Hardware von Dell Technologies. Dell Technologies und WZL verbindet mehr als nur eine Lieferantenbeziehung: Seit Jahren verschieben sie gemeinsam die Grenzen der Speicherung, Verarbeitung und Analyse großer Datenmengen.

Semantisches Datenmanagement

Softwareseitig kommt eine Lambda-Architektur basierend auf der Apache Hadoop Familie zum Einsatz, welche durch ein semantisches Datenmanagement der HotSprings GmbH perfektioniert wird. Das semantische Datenmanagement gewährleistet die lückenlose und präzise Anreicherung der Fertigungsdaten um entscheidende Metainformationen, wobei eine Künstliche Intelligenz (KI) bereits bei der Datenaufnahme typische Datenmuster erkennt und Zusammenhänge und Metainformationen vorschlägt.

„So werden auch in Zukunft wichtige Zusammenhänge nachvollziehbar und rekonstruierbar bleiben, selbst wenn die aktuelle Generation der Mitarbeiterinnen und Mitarbeiter nicht mehr am Institut ist,“ so Dr. Max Haberstroh, CEO der Hot-Springs GmbH.

Zentrales Big Data Lake plus dezentrales Edge Computing

In einem nächsten Schritt wird das zentrale Big Data Lake Konzept um ein dezentrales Edge Computing Netzwerk ergänzt, mit dessen Hilfe schnell und effizient bereits an den Fertigungsmaschinen eine Prozessüberwachung und Datenanalysen durchgeführt werden können. Für rechenintensive Aufgaben können die Edge Devices dann auf den zentralen „Big Data Lake“ zurückgreifen. Im Anschluss erfolgt die Implementierung einer WZL Machine Cloud, welche als Multiplattform aus Edge und Cloud insbesondere den Datenaustausch über die verschiedenen WZL-Standorte und -Stakeholder hinweg ermöglicht.

In der Blockchain sind die Daten sicher gespeichert

Abgesichert über eine Blockchain können Datenintegrität und Datensouveränität der Urheber jederzeit lückenlos und Gaia-X-kompatibel gewährleistet werden. "Was bis dahin unmöglich erschien, wird alltäglich sein: Die gemeinsame Entwicklung von KI-Algorithmen auf verschiedenen Datensätzen unterschiedlicher Stakeholder für maximale Effektivität in produzierenden Supply Chains,“ sagt Prof. Thomas Bergs.