Erst kürzlich habe ich in einem Blog-Artikel 5 Gründe für einen Data Lake zusammengetragen. Denn: Als zentraler Datenspeicher ist der Data Lake eines der Kernelemente moderner digitaler Plattformen, die so unterschiedliche Themen wie Business Intelligence (BI), Data Analytics, Internet of Things (IoT) oder Künstliche Intelligenz (KI) unter einem Dach vereinen. Wer sich infolgedessen an die Planung eines Data Lakes begeben möchte, muss allerdings eine ganze Reihe von Dingen beachten, damit das Projekt zum Erfolg wird. Daher möchte ich in diesem Artikel auf drei der wichtigsten Data Lake Fehler hinweisen, die Sie beim Aufbau dringend vermeiden sollten:
- Sie haben keine Verantwortlichen bestimmt
- Sie haben Berechtigungen nicht korrekt vergeben
- Sie haben Ihre Daten nicht sauber katalogisiert
1. Sie haben keine Verantwortlichen bestimmt
Wie bei Projekten rund um eine digitale Plattform bzw. ein Modern Data Warehouse üblich, startet auch die Entwicklung eines Data Lakes oftmals als Proof of Concept (POC) – sprich: Ein kleines, schlagkräftiges Team beschafft sich aus diversen Quellen die erforderlichen Daten und erstellt darauf aufbauend die ersten Analysen. Erweist sich der POC als Erfolg, dann wird die Lösung gerne auch schnell produktiv geschaltet, um den Anwendern den Nutzen transparent zu machen. Ein Data Lake Fehler ist dabei, dass für den Betrieb des produktiven Systems kein Verantwortlicher bestimmt wurde, der dauerhaft die stabile Nutzung gewährleistet. Idealerweise wird diese Aufgabe von einer Person übernommen. So wissen die Nutzer genau, wer bei technischen Hürden ihr Ansprechpartner ist.
Neben einem technischen Verantwortlichen benötigen Sie aber auch noch Mitarbeiter, die sich um die fachlichen Thematiken innerhalb Ihres Data Lakes kümmern. Diese fungieren als Ansprechpartner für Endnutzer, etwa wenn mit einer Kennzahl etwas nicht zu stimmen scheint. Auch hier gilt: Sie bestimmen genau einen fachlich Verantwortlichen je Fachgebiet. Bei einem kleinen Data Lake – wie er beispielsweise aus einem POC resultiert – ist dies im besten Fall der Product Owner. Schließlich ist er mit den Analysen innerhalb seiner Domäne am besten vertraut. Er kann also jederzeit Auskünfte geben und auch die erforderlichen Anpassungen vornehmen lassen.
2. Sie haben Berechtigungen nicht korrekt vergeben
Ein Thema mit hoher Fehleranfälligkeit ist die Vergabe von Berechtigungen für den Zugriff auf Ihren Data Lake. Ganz allgemein ist festzuhalten: Die Berechtigungen müssen im Vorfeld exakt geplant werden. Sie müssen genau überlegen, welche Benutzer und Gruppen es in ihrer Zugriffssteuerung anzulegen gilt und welche Rechte diese jeweils erhalten sollen. Wer hier nicht genügend Zeit investiert, der zahlt am Ende doppelt drauf, denn Änderungen oder Korrekturen können nur mit mehrtägigem Aufwand vorgenommen werden.
Auch unsaubere Arbeitsweisen bei der Entwicklung können negative Auswirkungen auf die Sicherheit und Funktionsweise des Data Lakes haben. So greifen viele Programmierer während des Entwicklungsprozesses als Superadmin mit uneingeschränkten Rechten auf den Data Lake zu. Werden solche Rechte nicht zur Produktivsetzung eingeschränkt, haben diese Personengruppen über ihre persönlichen Accounts vollen Zugriff auf sämtliche Datenbestände – auch die kritischen und schützenswerten. Ebenso kommt es immer wieder vor, dass Endanwender bei der Rechtevergabe irrtümlicherweise einen vollumfänglichen Zugriff auf den Data Lake erhalten, und damit z.B. auch auf prozessrelevante Daten. Modifizieren Sie solche Daten versehentlich, dann kann das Analyseergebnisse komplett verfälschen – und damit Ihre Lösung als Ganze in Frage stellen.
3. Sie haben Ihre Daten nicht sauber katalogisiert
Ein weiterer Data Lake Fehler: Viele Data Lakes verkommen mit der Zeit zu einem sogenannten Data Swamp – also einer Daten-Halde, bei der niemand mehr weiß, was für Dateien wo und zu welchem Zweck abgelegt wurden. Das Schlimmste ist: Der Wildwuchs wird immer größer, da es auch bei der weiteren Datenablage an Orientierung fehlt. Und der Anwender kann die Daten auf dieser Basis ebenfalls nicht sinnvoll weiterverarbeiten.
Leider treffen Sie immer wieder auf Data Lakes in einem solchen Zustand. Der Grund ist meist derselbe: Im Zuge der Entwicklung wurde es versäumt, einen Data Catalog anzulegen, der allen späteren Nutzern und Entwicklern eine klare Übersicht darüber verschafft, wofür welche Daten wo abgelegt wurden. Eine solche Katalogisierung können Sie über entsprechende Anwendungen – beispielsweise in der Microsoft-Cloud mit dem Azure Data Catalog – vornehmen. Dabei versieht der Entwickler die Daten mit Metadaten, die technische, operative und geschäftsrelevante Informationen beinhalten.
Ebenso vermerken Sie im Data Catalog die Ergebnisse von Analysen . Auf diese Weise wird vermieden, dass Ihre Mitarbeiter ähnliche Analysen mehrfach vornehmen – womöglich sogar mit unterschiedlichen Ergebnissen, die den Single Point of Truth in Gefahr bringen. Hier ist es Aufgabe der fachlich Verantwortlichen, darauf zu achten, dass zu jedem Datensatz der Data Catalog entsprechend gepflegt wird.
Ihre wichtigsten To-Do´s zusammengefasst:
- Sie legen eine technisch verantwortliche Person fest
- Sie bestimmen für jede Domäne eine fachlich verantwortliche Person
- Sie klären die Berechtigungen vor der Datenbewirtschaftung
- Sie katalogisieren Ihre Datensätze vor der Produktivsetzung
Wenn Sie mehr zum Aufbau eines Data Lakes und einer modernen Analyseplattform wünschen, dann schauen Sie doch mal auf der Seite Big Data Engineering vorbei oder buchen Sie unser Training Microsoft Modern Data Warehouse: Cloud-Plattformen aufbauen und geschäftlich nutzen.
Kommentare (0)