Was ist Data Mesh?

Data Mesh ist ein soziotechnisches Konzept für eine dezentrale Datenarchitektur. Das Paradigma ist ein Wandel im Datenmanagement, der sich mit den Herausforderungen großer Organisationen befasst, die oft Schwierigkeiten haben, geschäftlichen Mehrwert und Wirkung aus Daten zu liefern. Die Grundlage für Data Mesh sind vier Prinzipien:

Daten als Produkt
Domain Ownership
Self-Serve Dateninfrastruktur
Federated Computational Governance.

Ein Mesh ist ein Netzwerk von Zugangspunkten oder Knoten, die miteinander verbunden sind.

Die meisten Organisationen verlassen sich auf zentrale Datenteams mit einem zentralen Data Lake oder Warehouse. Die Erwartung ist, dass sie das Geschäft mit ihren Datenprodukten vorantreiben. Anfangs funktioniert dies oft, aber sie werden schnell zu einem Engpass, und es entstehen Fragen zu Prioritäten und dem Warten in der Warteschlange für Geschäftsteams. Diese und andere Herausforderungen im Datenmanagement sind der Ausgangspunkt für Data Mesh. Data Mesh ist eine Antwort auf die Beschränkungen früherer Datenmanagement-Paradigmen wie Data Warehouse und Data Lake. Das Konzept von Data Mesh wurde von Zhamak Dehghani in ihrer Rolle als Director of Emerging Technologies bei Thoughtworks entwickelt und gefördert.

Was bedeutet „Daten als Produkt“?

Einer der fundamentalen Bausteine von Data Mesh ist, Daten als Produkt zu sehen. Es bezieht sich auf die Art und Weise, wie Daten in einer Organisation behandelt werden. Innerhalb dieses Paradigmas gelten Datensätze als Produkte, und die Menschen in der Organisation (z. B. Data Engineers, Data Scientists) werden zu Kunden. Domain-Teams stellen ihre Datensätze dem Rest der Organisation zur Verfügung, die sie für ihre Datenprodukte nutzen kann. Das Prinzip wendet Produktdenken auf Datensätze an. Das bedeutet im Endeffekt: Daten werden wie ein Produkt behandelt, nicht wie ein Nebenprodukt.

Wie zieht man Nutzen aus Datensätzen?

Um Datensätze nutzbar zu machen, sind verschiedene Fähigkeiten erforderlich, wie Entdeckbarkeit, Adressierbarkeit, Verständlichkeit, Selbstbeschreibung, Sicherheit, Vertrauenswürdigkeit und Interoperabilität. Ein Beispiel: Ein „Kunde“ findet Datensätze über interne Suchmaschinen. Die Datensätze sind selbsterklärend und enthalten den Speicherort. Darüber hinaus werden Beispieldaten und exemplarische SQL-Abfragen unter Verwendung des Datensatzes bereitgestellt.

Was ist Domain Ownership?

Data Mesh begegnet dieser Herausforderung, indem es einen domänenorientierten dezentralen Besitz einführt. Domänen-Teams bestehen aus Menschen, die typischerweise um einen gemeinsamen Geschäftszweck organisiert sind. Beispiele für Domänen könnten Marketing, Produkt, Kasse, Rückgabe usw. sein. Domänen-Teams kennen ihre Daten am besten und sind dafür verantwortlich, ihre Daten anderen Domänen-Teams zur Verfügung zu stellen. Es liegt in der Verantwortung der Domänen, ihre Daten zugänglich, nutzbar und den Standards der föderierten Governance entsprechend zu machen. Domains sind Eigentümer von Datenprodukten, aber auch Produzenten von Datenprodukten. Dieses Prinzip repräsentiert eine Verschiebung des Datenbesitzes von Zentralisation zu Dezentralisation.

Was ist eine Self-Serve-Dateninfrastruktur?

Zentrale Datenteams sind oft ein Engpass für effiziente Datennutzung. Dies kann zu Frustration, längeren Entwicklungszeiten oder sogar dem Scheitern von Datenprojekten führen. Domain-Teams können unabhängig an der Entwicklung und Pflege ihrer Datenprodukte arbeiten. Sie erhalten schnelleren Zugriff auf die Daten und beschleunigen so die Markteinführung. Dies unterstützt die Skalierbarkeit besser als zentrale Ansätze, bei denen Ressourcen oft knapp sind. Lies mehr über dieses Thema in unserem Blogartikel Daten für Alle durch Self-Service-Analytics demokratisieren.

Was ist Federated Computational Governance?

Federated Computational Governance ist ein Konzept aus dem Data-Mesh-Ansatz, bei dem Daten-Governance dezentral in den einzelnen Domänen organisiert ist, aber durch technische Mechanismen automatisiert und standardisiert umgesetzt wird.

Das bedeutet: Die Verantwortung für Daten, Qualität, Sicherheit und Compliance liegt bei den jeweiligen Domänenteams, während zentrale, gemeinsame Standards sicherstellen, dass Datenprodukte interoperabel bleiben und zusammen genutzt werden können. Diese Regeln werden nicht nur dokumentiert, sondern direkt in Systeme, Plattformen und Workflows integriert und dort automatisch überprüft und durchgesetzt. So entsteht ein Gleichgewicht zwischen lokaler Verantwortung und unternehmensweiten Standards.

Warum ist das Konzept von Data Mesh so beliebt?

Das soziökonomische Konzept von Data Mesh wird immer beliebter, weil insbesondere große Organisationen eine hohe Misserfolgsrate bei Datenprojekten haben. Organisationen betrachten die Nutzung von Daten als eine wichtige strategische Ressource, aber es gibt Frustration über die Umsetzung. In den letzten Jahren hat kaum eine Idee so viel Aufmerksamkeit und Unterstützung in der Praxis des Datenmanagements erhalten wie Data Mesh.

Ein Beispiel

Zum Beispiel zeigte eine Studie von VentureBeat (2019), dass 87% der Datenwissenschaftsprojekte es nie in die Produktion schaffen. Hier sind einige Gründe: Ein Grund ist verstreute Daten: Das heißt, Daten liegen in Silos über verschiedene Teams verteilt, und die Koordination dieser Teams in der Organisation ist ineffizient. Mit seinen vier Prinzipien adressiert Data Mesh diese Herausforderungen und bietet daher eine grundlegend andere Antwort auf das Datenmanagement in einer Organisation. Unternehmen wie Zalando, adidas, Delivery Hero und HelloFresh verwenden Data Mesh für ihr Datenmanagement.

#applydatamesh als stabile Grundlage für das Datenmanagement

Bei Diconium sind wir der Meinung, dass große Organisationen, die darauf abzielen, ihr Geschäft durch Daten voranzutreiben, eine Datenkultur schaffen müssen, in der Besitz, Verantwortlichkeit und Fortschrittsmöglichkeiten an dezentrale Teams zurückgegeben werden. Das Data-Mesh-Paradigma bietet die Antwort auf eine Reihe aktueller Herausforderungen im Datenmanagement und bietet eine robuste Grundlage für den Mehrwert von analytischen Daten im großen Maßstab. Wir nennen dies #applydatamesh.