Stefan Zörner
02.12.2022
Larysa Visengeriyeva hält auf dem Architektur-Punsch einen Vortrag über Data Mesh. Stefan Zörner hat sich dazu in Berlin mit ihr unterhalten.
(StefanZ) “Hallo Larysa, schön dass Du Zeit für ein Gespräch gefunden hast. Magst Du in zwei, drei Sätzen erzählen, wer Du bist und was Du so machst?"
Larysa: Gern. Ich bin Larysa und arbeite als Senior Consultant bei innoQ. Ich habe meine Schwerpunkte in den Bereichen Machine Learning, Betrieb von Machine Learning und auch in Datenarchitekturen, insbesondere Data Mesh. Da ist dann Domain Driven Design auch nicht so weit. Ich arbeite auch in der Architekturberatung für die Modernisierung von Software und unterstütze Kunden dabei.
(StefanZ) “Jetzt hast Du Data Mesh gerade schon erwähnt. Bei unserem Architektur-Punsch hältst Du da ja einen Vortrag zu. Was ist Data Mesh eigentlich?"
Larysa: Data Mesh ist ein Datenarchitektur-Pattern. Grundsätzlich geht es um einen soziotechnischen Ansatz für dezentralisierte Datenarchitekturen mit dem Schwerpunkt analytische Daten. Das heißt wir sind nicht bei einem rein technischen Konzept.
Data Mesh ist ein soziotechnischer Ansatz für Datenarchitekturen, kein rein technisches Konzept.
Data Mesh basiert auf vier Prinzipien; sie machen das Konzept aus.
Als erstes Domain Ownership – das bedeutet die Verantwortung für die Daten wandert in die die fachlichen Teams. Sie sind dann für die Bereitstellung und Aufbereitung der analytischen Daten zuständig.
Das zweite Prinzip heißt Data as a Product. Wir wenden die Produktphilosophie auf Daten an. Es gibt immer Konsumenten, an deren Bedürfnissen wir das Datenprodukt ausrichten.
Das dritte Prinzip von Data Mesh ist Self-serve Data Infrastructure Platform. Die cross-funktionalen Domain Teams sind in dem Ansatz auch für die fachliche Aspekte und Domain-Wissen der Daten zuständig. Wir wollen sie wo möglich von technischen Aspekten befreien oder diese zumindest einfach bereitstellen.
Das letzte Prinzip heißt Computational Federated Governance und verhindert, dass wir quasi ein Chaos aus Datenprodukten in unserem Unternehmen produzieren. Wir müssen dafür sorgen, dass bestimmte Policies eingehalten werden, Security-Konzepte etwa, dass alle Datenprodukte interoperabel sind und von allen Teams nutzbar sind.
Wir bringen also mit dem vierten Prinzip ein bisschen Ordnung in das ganze Mesh-Konstrukt aus Datenprodukten. Zuständig ist eine Federated Governance-Gilde, die aus Leuten aus allen Domain Teams besteht und auch aus Leuten, die Regulatorik verantworten. Ein Beispiel für ein übergreifendes Thema wäre die DSGVO (Datenschutz).
Es ist wichtig, dass die Self-serve Data Infrastructure Platform eine Automatisierung zur Verfügung stellt, um etwa Policies durchzusetzen, um Federated Governance zu erleichtern.
(StefanZ) “Manche Unternehmen haben ein unternehmensweites Data Warehouse. Was ist bei Data Mesh anders?”
Larysa: Data Mesh ist quasi das Gegenstück zu Data Warehouse. Bei Data Warehouse geht es um Zentralisierung. Wir haben operative Daten, wir extrahieren, transformieren, laden in ein Modell. Die Analystinnen und Data Scientists bedienen sich aus diesen Daten dann für ihre Auswertungen.
In einer datengetriebenen Kultur, wo unsere Entscheidungen auf Daten basieren, wird die Rolle von analytischen Daten immer größer. Wir können Features in unseren Produkten datenbasiert entwickeln. Wir haben Features in den Produkten, die tatsächlich auf Machine Learning-Modellen basieren. Empfehlungen, usw. – dafür brauchen wir Daten.
Wenn die Domain-Teams dann zum Data(warehouse) Team rennen: “Wir brauchen die und die Daten, die müssen so und so aufbereitet sein, könnt Ihr uns das bereitstellen?”. Und wenn wir im Unternehmen viele Domain-Teams haben, die das tun … das Data Team wird kognitiv überfordert und automatisch irgendwann zum Bottleneck.
Sobald das Data Team aber zum Flaschenhals geworden ist, wird der ganze innovative Drive im Unternehmen ausgebremst. Alle warten auf die Daten vom Data Team.
(StefanZ) “Und das ist der entscheidende Unterschied?”
Larysa: Data Mesh ist die Antwort auf diesen Bottleneck. Dezentralisiert, Verlagerung der Verantwortung für operativen und analytischen Daten auf die Domain Teams. Deswegen soziotechnisches Konzept: wegen dieses Verantwortungs-Shifts,
Das heißt nicht, dass Data Warehouse als Konzept verschwindet. Nein, es heißt, dass wir ganz viele DWHs haben können.
Oder: Data Lakes. Das ist auch so eine Idee, eine Lockerung im Data Warehouse. Die Daten werden nicht normalisiert, wir speichern sie einfach ab wie sie sind. Aber im Endeffekt wissen wir auch nicht, was im Data Lake ist, und es liegt auch alles zentral. Das Aspekt der Verantwortung für die Daten hat bisher gefehlt.
Data Mesh ist ein Paradigmenwechsel in Datenarchitekturen.
Zhamak Dehghani nennt das Paradigma Shift. Die Verantwortung aufteilen, damit wir schneller sind.
Das kennen wir bereits, die gleiche Entwicklung haben wir bei Microservices und Monolithen gesehen. Teams bauen selbständig kleinere Teile, unabhängige Services. Deswegen sind Datenprodukte eher auf Bounded Contexts beschränkt und in einem Team verortet.
(StefanZ) “Kannst Du noch etwas mehr zu Datenprodukten erzählen?”
Larysa: Denk Dir eine Data Unit, eine Dateneinheit als Produkt. Wenn wir in der Apotheke etwas kaufen, dann haben neben dem Inhalt selbst auch einen Beipackzettel mit Meta-Informationen zu diesem Produkt in der Packung. Was ist da genau drin, welche Elemente und wieviel davon, wie sollte man das einnehmen, bis wann ist es gültig … genau diese Idee übertragen wir auf Daten.
Das heißt ein Datenprodukt besteht nicht nur aus Daten. Dazu kommt wie man die Daten konsumiert, Meta-Daten, Observability-Metriken, damit wir unser Datenprodukt im ganzen Lebenszyklus beobachten können. Wir nennen das Data Journey. Wie die Daten zustande gekommen sind. Es ist auch eine großartige Sache, um Daten zu debuggen. Wenn irgendetwas schiefgelaufen ist, z.B. irgendeine Spalte ist nicht gefüllt.
Das ist viel mehr als einfach nur eine Tabelle irgendwo bereitstellen.
(StefanZ) “Wenn ich beim Punsch in Deinen Vortrag gehe, welches Vorwissen sollte ich mitbringen, um Dir folgen zu können? Sollte ich z.B. schonmal was mit Daten gemacht haben?”
Larysa: Ziel ist tatsächlich ein sehr breites Publikum zu erreichen. Ich erwarte kein umfassendes Wissen. Entwickler/innen haben in ihrem Leben in der Regel schon ein SQL-Statement geschrieben. Sie wissen ungefähr, wie eine Persistenz-Schicht aufgebaut ist. Ganz übliches Wissen, was wir Informatiker üblicherweise haben.
Es wäre sicherlich gut zu wissen, was Domain Driven Design ist. Oder was Microservices sind. Es wäre vielleicht sogar gut zu wissen, was Data Governance ist. Aber das ist kein Muss.
(StefanZ) “Machen wir es mal konkret: Product Owner. Er oder sie wüsste das ja vermutlich alles nicht im Detail. Würde das gehen?”
Larysa: So einen Vortrag kannst Du immer als Impuls hören, wenn es für Dich interessant klingt. Du könntest Dich dann mit den Begriffen nachher noch weiter beschäftigen.
Was ich noch sagen wollte: Data Mesh ist an sich ein komplexer Begriff. Wir haben verschiedene Aspekte drin wie strategisches Domain Driven Design, soziotechnische Architektur, Technologien. Die vier Prinzipien kann man in verschiedenen Dimensionen sehen, wie eben diese drei Aspekte sind. Data Mesh an sich ist nichts neues. Im Zusammenspiel ist es was neues.
Data Mesh an sich ist nichts neues. Im Zusammenspiel ist es was neues.
(StefanZ) “Was nehmen die Leute aus Deinem Vortrag mit?”
Larysa: Sie wissen zunächst einmal was Data Mesh ist. Sie wissen auch, was Data Mesh nicht ist. Ich nehme ein wenig den Hype raus, da gibt es tatsächlich viele Missverständnisse.
Im zweiten Teil des Vortrages zeige ich etwas Praktisches: Eine Methodik, wie man so ein Datenprodukt entwirft. Wir haben dazu mit unserem Team bei innoQ ein Framework entwickelt, ein Data Product Canvas. Wir haben das auch schon erfolgreich für das Design von Datenprodukten angewendet. Das möchte ich auch gerne kurz vorstellen.
Das heißt die Leute haben neben der Theorie nach dem Vortrag auch ein Tool kennengelernt, das ihnen hilft ein Element aus Data Mesh zu designen.
(StefanZ) “Es gibt ja Leute, die sich Deinen Vortrag nicht besuchen können. Hättest Du eine gute Quelle für den Einstieg in Data Mesh parat?”
Larysa: Ich habe tatsächlich zusammen mit meinen innoQ-Kollegen Simon Harrer und Jochen Christ eine Webseite über Data Mesh Architecture geschrieben. Da haben wir das Data Mesh Konzept aus der Ingenieursperspektive “aufgeklärt”.
Wir sind da noch in einem Prozess. Data Mesh ist noch neu, es gibt keine etablierten Run-Books, um es einzuführen. Viele Unternehmen sind dort gerade unterwegs.
Laut Feedback, das wir von Social Media bekommen, ist diese Webseite zu einer sehr wertvolle Ressource geworden, um schnell und klar ein Verständnis von Data Mesh zu kriegen.
(StefanZ) “Cool. Zielgruppe ist dann eher Entwickler/Architektinnen, wenn schon “Architecture” im Namen steht?”
Larysa: Ich finde, es ist für alle interessant. Für Entscheider, die sich mit strategischen Fragen beschäftigen. Für Developer, für Domain Teams.
Es sind auch technische Stacks beschrieben, wie man Data Mesh umsetzen kann. Es sind Journeys enthalten, wie sich ein Data Mesh aus der Team-Perspektive entwickeln kann und vieles mehr. Die Webseite ist Work-in-Progress. Je mehr Erfahrungen wir kriegen, um so mehr Informationen bringen wir dort hinein.
(StefanZ) “Hattest Du mal ins Punsch-Programm geguckt? Was findest Du da interessant? Gibt es etwas, was Du selber besuchen möchtest?”
Larysa: Die zwei Sachen, die ich mir besonders gerne anschauen möchte ist zum einen Deiner zu Architekturstilen. Und dann zum zweiten der zu Architektur-Katas.
Ich finde, Architektur ist etwas, was man schwer üben kann. Sicher, man kann darüber Bücher lesen. Aber wenn man wirklich mal etwas ausprobieren möchte? Da finde ich diese Architektur-Katas sehr interessant.
Wobei: Ich fand das Programm insgesamt sehr gelungen. Ich würde mir alles angucken.
(StefanZ) “Vielen Dank für das Gespräch Larysa und bis zum 15.12. beim Punsch!”
Ein geselliger Vorweihnachtsnachmittag mit tollen Menschen, spannenden Vorträgen und vielen interaktiven Formaten.
Der Vortrag von Larysa zu Data Mesh ist Teil unseres Architektur-Punsches 2022 am 15. Dezember. Natürlich gibt es da noch weitere spannende Programmpunkte zu entdecken. Einfach anmelden! Details hier …