BLOG

Was ist Databricks und welchen Mehrwert bietet es?

14.01.2020 Agnes Kruczek

Seit Ende letzten Jahres sind wir stolzer Partner von Databricks. Im Gespräch erklärt Hilmar, was Databricks überhaupt ist und welchen Mehrwert es seinen Nutzern bietet.

Hilmar, verrate mir doch erstmal: Was ist Databricks genau?

Hilmar: Databricks ist ein Softwarehersteller, der eine auf Apache Spark basierte Analyseplattform in der Cloud anbietet. Für uns als Microsoft-Partner ist natürlich die perfekte Integration in die Microsoft Azure Cloud wichtig. Aber Databricks läuft auch unter Amazon Web Services.

Was ist Databricks?

Welchen Mehrwert bietet Databricks zu Apache Spark?

Hilmar: Apache Spark ist quasi der Motor in modernen Data Lake-Lösungen. Mit Spark lassen sich sehr große Datenmengen effizient verarbeiten, transformieren und analysieren – genau das, was heutige datengetriebene Unternehmenslösungen brauchen. Jedoch sind Installation und der Betrieb auch ziemlich anspruchsvoll. Hier setzt Databricks mit einer vollständig gemanagten Lösung an. Mit wenigen Klicks ist das aufgesetzt und der Betrieb damit einfach und kostengünstig.

Databricks macht Spark aber nicht nur leichter nutzbar. Es ergänzt auch eine Reihe wichtiger Funktionen, die für einen stabilen Betrieb und eine gute Performance notwendig sind. Man kann sagen, dass Databricks Spark auf eine neue Stufe hebt. Für Unternehmen würde ich daher immer Databricks empfehlen, anstelle selbst per Hand eine Spark-Umgebung aufzubauen.

Als ein Beispiel für die erfolgreiche Nutzung ist der deutsche Energieversorger E.ON zu nennen, der durch Databricks seine Analyseprozesse und Innovationen beschleunigt. Sam Julian, Produktmanager der Datendienste bei E.ON. erklärte dazu in dem Beitrag „Azure Databricks: Intelligente Analysen auf der Basis von Apache Spark„, dass sie jeden Tag fast ein Terabyte an Windkraftanlagendaten analysieren, um ihre Datenmodelle zu optimieren. Früher brauchten sie dazu mehrere Stunden, doch mit Azure Databricks dauert das nur noch ein paar Minuten. Damit gewinnen sie nicht nur Zeit, sondern auch eine ganze Reihe neuer Anwendungsmöglichkeiten.

ORAYLIS ist seit Ende 2019 Partner von Databricks. Warum ist diese Partnerschaft so wichtig?

Hilmar: Microsoft hat die Bedeutung von Databricks schon lange erkannt und eine solide Integration in die Azure Cloud geschaffen. Diese nutzen wir bereits in etlichen Projekten und es ist ein fester Baustein in unserer Architekturlandschaft geworden. Damit ist es nur folgerichtig, dass wir die Zusammenarbeit jetzt auch formal in einer Partnerschaft festigen. Besonders im deutschsprachigen Raum ist das Angebot an gut geschultem und zertifiziertem Personal noch begrenzt. Mit unserer Partnerschaft möchten wir diese Lücke schließen. Außerdem sind wir über die Partnerschaft sehr gut mit den Entwicklern von Databricks vernetzt. Davon profitieren natürlich auch unsere Projekte, denn wir sind z. B. schnell in der Lage, tiefe technische Expertise dazu zu holen.

Unternehmen häufen große Datenmengen an. Sie möchten die Daten effektiv erfassen und analysieren, haben aber zunächst eine Reihe von Herausforderungen zu lösen. Hilft Databricks diese Herausforderungen zu bewältigen?

Hilmar: Ganz genau. Es ist ja nicht damit getan, die Daten zu sammeln. Das geht heute übrigens ganz hervorragend und kostengünstig in einem Cloud gestützten Data Lake, auf Wunsch auch georedundant. Der eigentliche Wert der Daten erschließt sich aber erst in der Analyse und Verarbeitung bis hin zu Data Science Use Cases. Spark und damit Databricks besteht aus einzelnen Rechenknoten, die sich die Arbeit teilen. Wenn ich schneller mit der Verarbeitung fertig sein will, erhöhe ich einfach die Anzahl der Knoten. Der große Vorteil der Cloud ist, dass ich wirklich beliebig – z. B. mehrmals am Tag – so justieren kann, wie ich es gerade benötige.

Und da Speicher und Rechenkapazität (Storage und Compute) getrennt sind und unabhängig voneinander skalieren, bezahle ich nur das, was ich gerade brauche. Findet z. B. gerade keine Verarbeitung statt, so stoppen die Rechenknoten in Databricks automatisch und verursachen auch keine Kosten mehr.

Ganz besonders profitieren davon natürlich Anwendungsfälle der Künstlichen Intelligenz, bei denen typischerweise für das Training der Modelle kurzzeitig eine sehr hohe Rechenkapazität gefordert ist. Data Scientists können dabei gewohnte Werkzeuge nutzen (z. B. Notebooks, Python, R, SQL), wobei der Fokus auf der Zusammenarbeit in Teams liegt und der komplette Lebenszyklus der Modelle nachvollziehbar und transparent wird.

Welchen Nutzen aus der Partnerschaft können wir an unsere Kunden weitergeben?

Durch die Partnerschaft haben wir einen noch besseren Zugang zu technischen Ressourcen, Trainings und Support. Davon profitieren natürlich unsere zahlreichen Projekte, in denen Databricks bereits heute eine wichtige Funktion übernimmt.

Wir erleben gerade aber auch eine enorme Entwicklungskraft, mit der der Open Source Kern von Apache Spark und das Produkt Databricks weiterentwickelt wird. Viele wichtige Neuerungen von Spark, wie z. B. der Delta Lake, wurden von Databricks entwickelt und der Open Source Community zur Verfügung gestellt. In einem so dynamischen Umfeld ist es wichtig, ein Sprachrohr auch in die Entwicklung zu haben und so Kundenwünschen und -Ideen zum Durchbruch zu verhelfen. Genau das leistet die Partnerschaft.

Und natürlich arbeiten wir heute oft in gemischten Teams, bei denen Entwickler unserer Kunden mit im Projekt tätig sind und ganz normal in die Sprintplanung einbezogen werden. Hier teilen wir unser Wissen und befähigen unsere Kunden dabei, selbständig mit ihren Daten arbeiten zu können.

Haben Unternehmen, die Azure bereits nutzen, weitere Vorteile?

Wenn Kunden also bereits Daten z. B. im Azure Blob Storage ablegen, aber unsicher sind, wie die weitere Verarbeitung erfolgen soll, so ist Databricks in aller Regel die richtige Antwort.

Wem empfiehlst du die Nutzung von Databricks?

Hilmar: Ich empfehle Databricks immer dann, wenn Unternehmen mit ihren heutigen analytischen Möglichkeiten an ihre Grenzen kommen, weil sie die Datenmenge zwar speichern, aber schlicht und ergreifend nicht mehr verarbeiten können. Wichtige Projekte werden dann zurückgestellt, weil sie zu aufwendig werden und die Anwender bekommen nicht die Antworten, die sie zur Steuerung des Geschäfts benötigen. Databricks sprengt diese Barriere und macht vermeintlich schwierige oder sogar unlösbare Aufgabenstellungen plötzlich wieder einfach und handhabbar. Alleine das ist aus meiner Sicht ein guter Grund, sich Databricks genauer anzuschauen.

Wollen auch Sie Azure Databricks nutzen, um die Datenanalyse in Ihrem Unternehmen auf den neuesten Stand zu bringen? Dann informieren Sie sich weiter auf der Seite Big Data Engineering oder besuchen Sie unser Microsoft Modern Data Warehouse Training. Zudem erklärt Ihnen unser Databricks-Experte Benjamin in seinem Video anhand eines konkreten Beispiels, wie Databricks in der Praxis funktioniert:

Your email address will not be published. Required fields are marked *

Training

Microsoft Modern Data Warehouse

Mit einem MDWH können Sie Ihren Daten vollkommen neue Werte entlocken. Begeistern Sie Kunden und Mitarbeiter durch digitale Services auf der Basis von Internet of Things und Echtzeit-Streaming. Unser Training vermittelt Ihnen die technischen Grundlagen in der Azure Cloud.

Join #teamoraylispeople

Gestalte mit uns
die Welt der Daten