Wiki

Data Lakehouse

Was ist ein Data Lakehouse?

Beim Data Lakehouse handelt es sich um ein modernes Konzept sowie eine Referenzarchitektur für das Datenmanagement in cloudbasierten Analyseplattformen. Das Data Lakehouse vereint die Funktionen und Vorteile von Data Warehouse (DWH) und Data Lake, wodurch es zum zentralen Anlaufpunkt für alle datengetriebenen Anforderungen im Unternehmen wird. So lässt sich einerseits die klassische Business Intelligence (BI) mit Self-Service-Analysen und automatisiertem Reporting in Echtzeit bedienen. Andererseits kann mit allen vorhandenen Datenformaten Machine Learning betrieben und Künstliche Intelligenz entwickelt werden.

Evolution von DWH über Data Lake bis hin zum Data Lakehouse

Die Evolution des Data Lakehouse. Es vereint die Vorteile von DWH und Data Lake. Alle Daten werden auf einer Ebene für alle Nutzungszwecke bereitgestellt.

Wie funktioniert ein Data Lakehouse?

Das Data Lakehouse ist eine konsequente Weiterentwicklung des „Two-Tier“-Prinzips – einer zweistufigen Architektur, bei der DWH und Data Lake getrennte Komponenten sind, die miteinander interagieren. Die geschäftlichen Daten werden hierbei aus den operativen Datenbanken über eine ETL-Strecke im kostengünstigen Massenspeicher des Data Lakes abgelegt. Ausschnitte dieser Daten werden im Anschluss nochmals konsolidiert und für BI-Anforderungen im DWH bereitgestellt. Das mehrstufige Vorgehen führt jedoch zu Verzögerungen bei der Datennutzung, einer hohen Komplexität in der Gesamtlösung sowie einigem Mehraufwand im Betrieb.

Das Data Lakehouse stellt dem ein offenes Systemdesign gegenüber, bei dem alle Daten auf einer Ebene für sämtliche Nutzungszwecke bereitgestellt werden. Unternehmen müssen also nur noch eine Datenquelle verwalten und pflegen. Ermöglicht wird dies durch Weiterentwicklungen der Data-Lake-Technologie, etwa in den Bereichen Datenarchitektur, Datenverarbeitung und Metadatenmanagement. In der Folge lassen sich die Datenstrukturen und Verwaltungsfunktionen des DWHs direkt in den Data Lake implementieren.

Hinzu kommen deutlich leistungsfähigere Abfrage-Engines, mit denen die Nutzer alle gewünschten Daten schnell analysieren können. Sowohl strukturierte als auch unstrukturierte Daten werden im laufenden Betrieb für das jeweilige Anwendungsgebiet optimiert. Offene Datenformate sorgen schließlich dafür, dass Data Scientists und Data Engineers alle Quellen effektiv für maschinelles Lernen nutzen können.

Wie können Sie mit einem Data Lakehouse neue Werte schaffen?

Ein MDWH in Microsoft Azure wird meist rundum Databricks als Service für die Speicherung, Aufbereitung und Bereitstellung sämtlicher Daten aufgebaut.  Daher ist auch häufig von einem Databricks Lakehouse die Rede. Die Zusammenführung aller Analysesysteme auf einer Plattform vereinfacht nicht nur die Arbeit der Betriebsteams. Jeder Mitarbeiter erhält einen direkten und hoch performanten Zugriff auf alle für ihn relevanten Daten. Als übergreifendes Analysewerkzeug dient dabei Power BI. Die Nutzung ist verhältnismäßig einfach, da das Tool direkt in die vertraute Office-Oberfläche eingebunden ist. Jeder im Unternehmen kann daraufhin mit Daten arbeiten und daraus neue Werte für das Geschäft erschließen.

Gleichzeitig stehen die vollständigen Daten in der aktuellsten Version für explorative Analysen und maschinelles Lernen zur Verfügung. Auf dieser Grundlage können unterschiedlichste Prozesse im Unternehmen optimiert und automatisiert werden. Ebenso lassen sich Kundenprodukte durch Künstliche Intelligenz und Echtzeit-Services anreichern.

Wollen auch Sie mit einem Data Lakehouse neue Werte für Ihr Unternehmen, Ihre Kunden und Ihre Mitarbeiter schaffen? Dann schauen Sie doch mal auf der Seite Databricks Lakehouse vorbei oder informieren Sie sich zu unserem Training Data Lakehouse: Cloud-Plattformen aufbauen und geschäftlich nutzen.

turn your data into value.

Training

Cloud-Plattformen aufbauen und geschäftlich nutzen

Verschaffen Sie sich alle wichtigen Grundlagen für die Entwicklung eines Data Lakehouse mit den Azure Services und Databricks.

Join #teamoraylispeople

Gestalte mit uns
die Welt der Daten