Wiki

Data Lake

Was ist ein Data Lake?

Der Data Lake ist das führende Konzept für Unternehmen, um Daten auch in großem Umfang zentral abzuspeichern und für die gewünschten Auswertungsszenarien bereitzustellen. Dabei kann ein Data Lake im Unterschied zum klassischen Data Warehouse (DWH) ganz unterschiedliche – strukturierte und unstrukturierte – Datenformate aufnehmen, angefangen bei klassischen ERP- und CRM-Daten über Bilder bis hin zu Sensordaten und Social-Media-Posts.

So lassen sich nicht nur die Fachabteilungen wie gewohnt mit Berichten zu Unternehmenszahlen sowie konsolidierten Daten für Ad-hoc-Analysen versorgen. Gerade Data Scientists eröffnet das Konzept die Möglichkeit, laufend explorative Analysen auf sämtlichen Rohdaten vorzunehmen und daraus neue Erkenntnisse zu erschließen. Unternehmen können also viel mehr als in der Vergangenheit auf Basis ihrer Daten digitale Optimierungs- bzw. Innovationsprozesse einleiten und gestalten.

Data Lake vs. Data Warehouse

Der Data Lake ist nicht mit dem traditionellen DWH-Konzept zu verwechseln. Zwar dienen beide der Speicherung von Daten. Jedoch werden im DWH die Daten schon im Vorfeld für eine möglichst passgenaue Nutzung strukturiert. Entsprechend lassen sich neue Daten bzw. Datenformate gar nicht oder nur mit hohem Aufwand einbinden. Dem gegenüber erfolgt im Data Lake eine Aufbereitung nur dann, wenn sie vom Nutzer gezielt gefordert wird – falls erforderlich, auch in der klassischen Schichtenstruktur eines DWHs. Entsprechend lassen sich Daten mit einem Data Lake viel flexibler abspeichern und verwenden. Interessanterweise bezeichnet Microsoft als führender Technologie-Anbieter seine aktuellen, Data-Lake-basierten Architekturen für Analyse-Plattformen als „Modern Data Warehouse“.

Data Lake

Data Science mit dem Data Lake: Stamm- und Rohdaten werden in einem abgegrenzten Bereich („Sandbox“) für explorative Analysen bereitgestellt. Neue Erkenntnisse lassen sich in das Unternehmenssystem zurückspielen.

Wie Sie mit einem Data Lake neue Werte schaffen

Zwar richten Unternehmen schon seit längerem auch auf lokalen Infrastrukturen spezielle Sammelbecken für Rohdaten ein – das volle Potenzial entwickelt ein Data-Lake-Konzept aber erst durch den Einsatz von Cloud-Diensten. Bei Microsoft Azure kann der Data Scientist Analysedienste sowie kostenintensivere Rechenkapazitäten ganz nach seinen Wünschen und Anforderungen in Anspruch nehmen. Und nach Beendigung seiner Arbeit wieder abschalten. Gleichzeitig lassen sich mit günstigen Speicherressourcen prinzipiell unendlich viele Daten wie auch die Ergebnisse vorangegangener Berechnungen sehr wirtschaftlich vorhalten – also die optimalen Bedingungen für eine wertorientierte Datenanalyse bei maximaler Kosteneffizienz. Im Rahmen eines lokalen Rechenzentrums ist ein solches Szenario kaum denkbar.

Wollen auch Sie mit einem Data Lake die Werte in Ihren Daten voll ausschöpfen? Dann informieren Sie sich über unser Training Data Lakehouse: Cloud-Plattformen aufbauen und geschäftlich nutzen.

turn your data into value.

DATA LAKEHOUSE

Cloud-Plattformen aufbauen und geschäftlich nutzen

 

Sichern Sie sich Ihr Geschäft von Morgen! Mit einem Data Lakehouse können Sie Ihren Daten vollkommen neue Werte entlocken. Begeistern Sie Kunden und Mitarbeiter mit digitalen Services auf der Basis von Internet of Things und Echtzeit-Streaming. Unser Training vermittelt Ihnen die technischen Grundlagen in der Azure Cloud.

Join #teamoraylispeople

Gestalte mit uns
die Welt der Daten