Der Data Lake hat sich zu einem De-facto-Standard für die unternehmensweite Datenanalyse entwickelt, ganz gleich ob es um Business Intelligence (BI), Data Analytics, Internet of Things (IoT) oder Künstliche Intelligenz (KI) geht. Aber warum ist das so? Was bringt Ihnen ein Data Lake? Im Folgenden werde ich auf fünf Data Lake Gründe für Unternehmen näher eingehen:
- Alle Dateien befinden sich an einem Ort
- Beliebige Datenformate lassen sich speichern
- Tools können frei gewählt werden
- Flexibel und skalierbar
- Entwicklungskosten werden gesenkt
1. Alle Daten befinden sich an einem Ort
Der erste der Data Lake Gründe ist, dass Sie sämtliche Daten Ihres Unternehmens an einem zentralen Ort sammeln und vorhalten. Dabei kann es sich sowohl um Rohdaten als auch um vorverarbeitete oder gar abgeschlossene Analyse-Daten handeln. Ein gut geführter Data Lake katalogisiert alle Daten mittels Metadaten. Somit müssen sich Endanwender die Daten nicht mehr aus diversen Quellsystemen mühselig zusammensuchen. Es geht also keine Zeit mehr dabei verloren, die benötigten Daten in verschiedenen Silos zu identifizieren und in die Analysen einzubinden. Der Anwender kann direkt loslegen.
Da sich alle Daten an einem einzigen Ort befinden, können Sie zudem Sicherheitspolicies effektiv einführen und anwenden. Schließlich ist ein Data Lake von außen betrachtet nichts anderes als eine riesige Festplatte. Entsprechend vergeben Sie Berechtigungen genauso wie auf normalen Dateien.
2. Beliebige Datenformate lassen sich speichern
Ein Data Lake nimmt alle erdenklichen Dateiformate auf, da er über ein sehr großes Dateisystem verfügt. Daher müssen die Daten auch nicht vor dem Abspeichern in zeitraubenden ETL-Prozessen (Extract – Transform – Load) aufbereitet werden, wie es bei einem klassischen Data Warehouse (DWH) der Fall ist. Vielmehr legen Sie die Daten in ihrer ursprünglichen Form ab und transformieren diese erst bei Bedarf im Zielsystem (ELT). Sie spielen Daten also viel schneller ein, als bei einem klassischen DWH.
3. Tools können frei gewählt werden
Da die Daten zunächst in ihrer Rohform im Data Lake vorliegen, können beliebige Tools zur Weiterverarbeitung verwendet werden – sprich: Sie führen die Transformation mit den Werkzeugen durch, die Sie am besten beherrschen oder die für den abzubildenden Vorgang die beste Unterstützung bieten. Das bedeutet auch, dass unterschiedliche Anwenderkreise verschiedene Tools nutzen können. Beispielsweise greift der Data Scientist mit R oder SAS auf die Rohdaten zu, während ein Business Analyst mit Power BI bereits vorbereitete Daten analysiert.
4. Flexibilität & Skalierbarkeit
Anwender können mit einem Data Lake deutlich flexibler arbeiten als mit einem klassischen DWH, da die Datenspeicherung völlig losgelöst von der Verarbeitung erfolgt. Die Daten müssen nicht erst den gesamten Ladeprozess durchlaufen. Vielmehr kann ein Data Scientist neue Analysen auf Rohdaten in einer kleinen Sandbox als Proof of Concept (PoC) vornehmen – unabhängig vom eigentlichen Betrieb. Im Erfolgsfall können andere Nutzer die PoC-Ergebnisse sofort weiterverwenden. Ebenso lässt sich der PoC aus der Datenlandschaft wieder sehr leicht wieder entfernen, wenn er nicht die gewünschten Resultate bringt.
Im Übrigen führt das Sandbox-Konzept dazu, dass die Arbeit auf einem Data Lake gut skalierbar ist. Der Cloud-Ansatz befördert diese Skalierbarkeit zusätzlich. Speicher ist relativ günstig. Dazu bieten die Provider eine redundante Datenhaltung, durch die sowohl in Hinsicht auf den Speicherplatz als auch die Datenzugriffe skaliert werden kann. Das macht den Data Lake schlussendlich zu einer sehr zukunftssicheren Lösung, da Unternehmen nicht länger durch ihre vorhandene Hardware limitiert werden.
5. Entwicklungskosten werden gesenkt
Zu guter Letzt senkt der Data Lake auch Ihre Entwicklungskosten. Denn: Die Anwender kerzielen mit dem vorhandenen Know-how zu ihren bevorzugten Tools alle gewünschten Erkenntnisse. Es ist nicht notwendig, Mitarbeiter speziell zu schulen oder gar neu einzustellen. Zudem verwenden Sie die neuesten Technologien, was Standardprozesse eigentlich immer vereinfacht. Auch eröffnen die neuen Technologien oftmals Möglichkeiten, die ältere Werkzeuge nicht bieten. Und: Da der Data Lake alle Daten direkt wie ein normales Dateisystem bereitstellt, sind Unternehmen auch nicht an bestimmte, lizenzpflichtige Softwareprodukte gebunden. Stattdessen können Open-Source-Technologien zum Einsatz kommen, was zusätzlich Kosten einspart.
Data Lake Gründe – sind noch Fragen offen geblieben? Dann informieren Sie sich weiter unter Big Data Engineering oder besuchen Sie unser Training zum Microsoft Modern Data Warehouse.
Kommentare (0)