Vielleicht haben Sie es schon in Ihrem Unternehmen bemerkt: es gibt sehr viele unterschiedliche Arten von Daten. Diese unterscheiden sich zum Beispiel hinsichtlich ihrer Quelle, ihrer Formate, ihrer Qualität, in der Menge, in Bezug auf ihre Reife und ihres Potenzial für Ihr Unternehmen. Diese Vielfalt an Daten führt dazu, dass eine einzelne Strategie für eine sinnvolle Datennutzung, für eine gemeinsame Infrastruktur oder sogar für eine bestimmte Technologie in meisten Fällen unrealisierbar ist, aufgrund eben dieser Unterschiedlichkeit, in der die Daten vorliegen.
Und das ist gut so. Es ist sogar erwünscht. Überrascht? Dann lesen Sie weiter!
Die Ausgangslage: Altsysteme und All-in-1-Datenplattformen werden heutigen Anforderungen an Datenverwaltung nicht gerecht
Heutzutage, ist die Verwaltung von Daten in vielen Unternehmen sehr chaotisch. Sie ist technologisch, fachlich, aber auch regulatorisch getrieben und soll damit vielen Ansprüchen nachkommen. Dadurch sind jedoch oftmals eine Vielzahl an separaten Datenplattformen entstanden. Die meisten solcher Datenplattformen fokussieren sich auf konkreten Aufgaben, z.B. auf Datenstreaming, Datenanalyse oder ML. Andere Datenplattformen hingegen tun das Gegenteil: Sie versprechen als All-in-1-Lösung (fast) alle Anforderungen an die Datenverarbeitung und -nutzung innerhalb einer Datenplattform erfüllen zu können. Dabei überzeugen sie häufig durch aggressive Marketingvorgehensweisen ihre Kunden zu Beginn, dass alle ihre Anforderungen und komplexen Ansprüche mit diesem einzelnen Datenmanagement-Tool erfüllt werden könnten. Das klingt verlockend! Schnell wird vielen Nutzern und Nutzerinnen jedoch klar, dass ihre Herausforderungen grösser sind als ursprünglich gedacht und der Einsatz der vielversprechenden Tools wird zur Enttäuschung.
Daher müssen sich viele Unternehmen auf mehrere einzelne Altsysteme verlassen, um alle Aufgaben und Bereiche der Datenverwaltung abzudecken und haben oftmals keine Möglichkeit diese zu migrieren oder die notwendigen Migrationskosten werden nicht unterstützt.
Die Konsequenz: Die revolutionäre Weiterentwicklung von Datenplattformen und Datenarchitekturen
Zu dieser Problematik hat auch die revolutionäre Wandlung in Datenbereich beigetragen, die hier kurz anhand von vier exemplarischen Meilensteinen skizziert werden soll:
Data Lakes: Um die Herausforderungen von Unternehmen in der Datenverwaltung zu lösen, entwickelte sich der Trend, Data Warehouse Architekturen mit OLTP (Online Transaction Processing, einer Art der Datenverarbeitung, bei der mehrere Transaktionen parallel durchgeführt werden) u.a. um NoSQL Lösungen zu erweitert. Diese haben innerhalb kürzester Zeit in Form von Data Lakes die Welt der Datenverwaltung erobert. Vorteil: Bei Data Lakes spielt das Format keine Rolle. Daten lassen sich dort so speichern, abrufen und verarbeiten, wie sie vorliegen.
Data Streaming: Doch auch OLTP war schnell nicht mehr ausreichend, weswegen aus dieser Art der Datenverarbeitung bald sogenannte Datenstreaming-Architekturen hervorgingen. Vorteil: Im Gegensatz zur parallelen Verarbeitung wie sie durch OLTP möglich wurde, erlauben Datenstreaming-Architekturen sogar die Datenverarbeitung in Echtzeit.
Data Lakehouses: Doch die Echtzeitverarbeitung ist nicht das Ende der Entwicklung verschiedenster Ansätze zur effizienten Datenverwaltung: mit sogenannten Data Lakehouses, einer Datenmanagementarchitektur, die die Vorteile von bisherigen Data Warehouse und Data Lakes kombiniert, wollten Unternehmen von nun an auf zentralisierte Datensilos verzichten und mit Data Fabric Architekturen trotzdem die relevantesten Aufgaben um Daten Governance und Sicherheit konsolidieren. Vorteil: Vereint die Vorteile von Data Warehouse und Lakes und ermöglicht so u.a. Vorteile wie eine Reduzierung der Datenredundanz, Vereinfachung der Beobachtbarkeit von Daten oder Senkung der Kosten zur Datenspeicherung.
Data Mesh: In letzten 4 Jahren hat sich nun das Konzept von Data Mesh stark das Gebiet der Datenverwaltung weiter beeinflusst. Data Mesh ist weniger auf Technologien und mehr auf die Einbindungen von geprüften Aufbauorganisationen wie Domänen, flexible Teams und DataOps gerichtet. Vorteil: Dadurch erhöht sich die Skalierbarkeit eines Unternehmens in Bezug auf ihr Datenmanagement: Sie können einfach mit einer schnell wachsenden Datenmenge arbeiten und sowohl neue Anwendungsfälle als auch eine wachsende Nutzerzahl der Daten erfolgreich bedienen.
Die Herausforderung: Datenschutzrichtlinien zur sicheren Datenverwaltung und Künstliche Intelligenz als neuer Einflussfaktor
Doch all diese Entwicklungen im Bereich der Datenverwaltung stossen auf der anderen Seite der Realisierbarkeit an Grenzen, wenn man bedenkt, dass in den letzten Jahren weltweit neue Datenschutzvorschriften entstanden sind:
Diese wie z.B. die Allgemeine Datenschutz-Verordnung in EU sind sehr anspruchsvoll, aber generisch.
Andere gehen weiter und kontrollieren strikt den Austausch von Daten (wie z.B. die derzeit debattierte EU-USA DPF).
Wieder andere sind konkreten Aspekten gewidmet: wie z.B. der europäische Data Governance Act, Data Act und Artifical Intelligence Act.
All dies beeinflusst die Datenverwaltung in jedem Unternehmen und reguliert innovative Ansätze zum Schutz der Privatsphäre und aus Sicherheitsaspekten. Gerade, wenn es um künstliche Intelligenz geht, dann ist darauf hinzuweisen, dass die riesigen Fortschritte im KI-Bereich, voraussichtlich bald weitere Veränderungen in der Datenverwaltung mit sich bringen: So ist zu erwarten, dass sämtliche aktuelle Innovationen im Feld Künstlicher Intelligenz in Zukunft massgeblich beeinflussen, wie Unternehmen ihre Datenlandschaft organisieren, d.h. ihre Daten verwalten werden. Zu diesen Innovationen im KI-Bereich gehören derzeit unter anderem Architekturen, welche auf Transformers (sogenannten Deep Learning Modellen) basieren, GPT-4 Modell (wie das weit bekannte Chat GPT), neue, potenziell interessante Ansätze im Bereich von Allgemeinen Künstlichen Intelligenzen und automatisiertes maschinelles Lernen, um nur einige davon zu nennen.
Das Ergebnis: Derzeitige Einschränkungen in der Datenverwaltung könnten bald der Vergangen angehören
Die Dynamik mit der sich der Bereich der Datenverwaltung verändert, ist enorm, der Bedarf beträchtlich und die Anzahl von Einflussfaktoren sehr gross. Dass es derzeit keinen klaren, allumfassenden Gewinner unter den Lösungen für effiziente Datenverwaltung gibt, macht es nicht weniger komplex. Nichtdestotrotz ich möchte mit Ihnen ein paar Hinweise teilen, welche sich meiner Meinung nach bewährt haben und in Zukunft weiter bewähren werden.
Das Ziel ist klar: Unternehmen möchten unter Assistenz von einer KI, ähnlich der von J.A.R.V.I.S.in Iron Man, am liebsten direkt, in nationaler Sprache analytische Fragen stellen, welche aufgrund von verfügbaren Daten sofort beantwortet werden. Klingt doch einfach und sehr praktisch, oder?
Solch ein Ansatz hätte unbegrenztes Potenzial, wenn es um das Fragenspektrum geht. Er würde auch dazu führen, die Daten für ein viel grösseres Publikum zur Verfügung stellen zu können. Somit hätten Unternehmen die erwünschte Datendemokratisierung endlich erreicht.
Ist das wirklich so unrealistisch? Nun, obwohl das neuste Spielzeug des Planeten, ChatGPT, noch nicht für diese Anwendung nützlich ist, es ist klar, dass die Einschränkungen von sogenannten Grossen Sprachmodellen (Large Language Models) bald überwunden werden können. Weitere Varianten dieser oder ähnlicher Architektur kommen wahrscheinlich früher als erwartet.
Bevor Sie jetzt aber in eine konkrete Data Mesh Technologie investieren, welche multi-cloud und polyglott fähig ist, sollten Sie in Ihrem Unternehmen zuerst ein Verständnis aufbauen für sinnvolle Lösungsansätze für Ihre individuellen Anforderungen.
Die Lösung: Erfolgreiche Ansätze für die komplexen Anforderungen der Datenverwaltung
Vier dieser Ansätze werde ich Ihnen im Folgenden kurz vorstellen und dabei jeweils auf Beispiele, Tipps und Lösungen eingehen:
1. Data Discoverability
Lange ist schon die Zeit vorbei, in der Unternehmen Daten zuerst an einem Platz sammeln mussten, sei es Data Warehouse oder Data Lake, um sie verfügbar zu machen.
Was heutzutage auf der Agenda steht, ist die Investition in die Auffindbarkeit (Dicoverability) von Daten. Das bedeutet schlicht und einfach, dass Unternehmen sich darauf konzentrieren müssen, die Unmengen an Daten, die sie verwalten, einfach durchsuchbar zu machen, um den jeweiligen Rollen im Unternehmen die Auffindbarkeit der benötigten Daten zu ermöglichen.
Beispiel: Ein Product Team braucht Daten zur User Experience und zur Produktnutzung, während ein Marketing Team Zugriff auf Zielgruppen und Kundenanforderungen benötigt, ein Fachexperte für Business Development hingegen die Unternehmensdaten im Hinblick auf Zielerreichung und Zielsetzung immer im Blick haben muss.
Tipp: Die Auffindbarkeit von Daten sollte daher allen potenziellen Nutzern dabei helfen, nützliche Informationen im Unternehmen zu finden, den Regeln der richtigen Datennutzungz u folgen und die Struktur, insbesondere die Schemata der Daten, kennenzulernen. Noch vor einiger Zeit hatte man diese Aufgabe durch manuellen Prozess der Katalogisierung (Data Cataloging) und hochspezialisierte, d.h. einer Technologie gewidmeten, Data Lineage Lösung, abbauen wollen. Es hat sich jedoch in den meisten Fällen herausgestellt, dass dieses Vorgehen zu aufwändig und nicht nachhaltig ist.
Lösung: Moderne Data Discoverability Lösungen basieren heute auf automatisierten Prozessen, oft aus dem Bereich von ML. Diese haben einen Wechsel in der Datenverwaltung herbeigeführt: Daten werden nun als Produkte betrachtet. Das bedeutet die Domäne-Verantwortlichen stellen die kuratierten Datensätze, welche mit Hilfe von z.B. beigefügten Metadaten beschrieben werden, zur Verfügung.
2. Daten Virtualisierung und Daten Gateways
Unter Datenvirtualisierung versteht man eine logische Datenschicht, die Unternehmensdaten aus unterschiedlichen Systemen integriert und einheitlich und zentral in Echtzeit zur Verfügung stellt. Trotz einer fragmentierten Datenlandschaft kann so eine effiziente Datenverwaltung erfolgen.
Beispiel: Business-Anwender können einen einheitlichen Datenbericht erstellen, der Daten aus verschiedensten Quellen umfasst, da diese von der Datenvirtualisierung abgerufen und in einer integrierten Ansicht zu Verfügung gestellt werden.
Tipp: Damit diese Produkte, also die Daten, aus mehreren Domänen auffindbar und durchsuchbar bleiben, sollten Sie in Ihrem Unternehmen eine transparente Datenarchitektur ermöglichen. Dazu gehört es, dass eine Strategie inklusive Regelungen und Vorgaben zum Datenmanagement gemeinsam erarbeitet und eingehalten wird. Konzepte wie die Datenvirtualisierung und Data Gateways sind ebenfalls Teil davon.
Lösung: Eine solche virtuelle Schicht kann verschiedene Datenabfragetechnologien unterstützen wie SQL, REST und GraphQL und dank weiteren Abstraktionen wie Daten Gateways, auch Schema-, Sicherheits- und Skalierbarkeitsanforderungen abdecken.
3. Data Marketplace and Data Observability
Eines der Gegenargumente in der Diskussion über moderne Datenarchitekturen bezieht sich auf den zusätzlichen Aufwand, welcher durch die Pflege der Daten oder durch die Verallgemeinerung der Schnittstellen entsteht. Zusätzliche Kosten lassen sich dabei leider nicht vermeiden, wenn ein Unternehmen die unkontrollierbare Fragmentierung der Datenlandschaft vermeiden möchte und zugleich das Potenzial, welches in ihren Unternehmensdaten steckt, nutzen will.
Beispiel: Solche Kosten fallen in verschiedensten Bereichen an. Insgesamt sind Storage-, Ingress- und Egresskosten in immer beliebter Multi-Cloud Architekturen daher nicht zu unterschätzen – doch lohnenswert, wenn man bedenkt, welche Verluste durch ungenutze Daten entstehen.
Tipp: Um also das volle Potenzial Ihrer Daten auszuschöpfen, können Sie mithilfe eines internen Data Marketplace den Zugriff auf Daten erlauben. Dies ist ein weiterer Schritt Richtung Datendemokratisierung und steigert die Nutzbarkeit Ihrer Daten.
Lösung: Eine zentrale Plattform, auf der die Daten durch Produzenten angeboten werden können, und Konsumenten diese Daten finden, kann auch dazu beitragen, dass die mit dem Datenaustausch verbundene Kosten im Unternehmen verteilt werden können. Ein interner Datenmarkt kann zusätzlich mit gewissen Aspekten der Datenüberwachung verknüpft werden. Somit könnten Sie z.B. aufgrund der gemessenen Popularität der Domänen, Strategien im Bereich von Datenmanagement besser steuern und Kosten dedizierter kalkulieren und verrechnen.
4. Datengetriebene Organisation eines Unternehmens mit Data Ops Teams
Insgesamt führt kein Weg daran vorbei, dass Sie die Organisation Ihres Unternehmens anpassen, wenn Sie ihre Daten effizient verwalten und maximal nutzbar machen möchten. Hochspezialisierte Teams, welche sich auf eine Technologie zum Datenmanagement beschränken, tragen eher zur weiteren der Fragmentierung der Datenlandschaft bei. Stattdessen sollten Praktiken wie DataOps eingeführt werden.
Beispiel: Genau wie viele Altsysteme lediglich einen Bereich abdecken können und daher Daten in vielen Systemen isoliert vorliegen, tragen spezialisierte Technologie-Teams eher dazu bei, dass dieses Vorgehen fortgeführt wird, wenn sie sich nur auf eine Anwendung fokussieren.
Tipp: Bei DataOps geht es hingegen darum, per eine übergreifende Datengemeinschaft zu formen. Das fördert den Austausch von Ideen und gemeinsame R&D-Aktivitäten ermöglichen die Konsolidierung und Vereinigung in gewissen kritischen Aspekten der Datenarchitektur wie Sicherheit, Auffindbarkeit, Beobachtbarkeit und Messbarkeit.
Lösung: DataOps-Teams tragen die Verantwortung über den vorgeschriebenen Umgang mit Daten im Unternehmen, diskutieren Integrationsthemen und verwalten Tools welche die Anbindung an Data Plattform vereinfachen zentral und stellen damit definitiv einen erfolgreichen Ansatz für die Datenverwaltung dar. Zusätzlich werden Aufgaben wie die Etablierung von Best Practices, die Definition der Namenskonventionen, die Verallgemeinerung der Metadaten und die Pflege von Self-Service-Portalen oder auch GitOps Pipelines von diesen Teams übernommen.
Fazit
Es gibt viele Grunde, warum die Datenlandschaft in einem Unternehmen fragmentiert ist. Gesetzliche Reglemente, separate fachliche Domänen, unterschiedliche Bedürfnisse und Ziele, um nur ein paar Beispiele zu nennen, tragen dazu bei, dass die Datenlandschaft in Zukunft noch weiter fragmentiert sein wird.
Um diese Spaltung für Unternehmen kontrollierbar zu machen und isolierte Datensilos zu vermeiden, können Sie gewisse Praktiken einführen. Ziel dieses Blogbeitrags war es klar zu machen, dass bevor Daten genutzt werden können, sie zuerst erfassbar und erreichbar gemacht werden müssen. Das wird aber selten nur durch Einführung einer neuen Technologie erfolgreich erzielt, kann jedoch durch die vier beschriebenen Ansätze erfolgreich funktionieren.
Aufgrund meiner Erfahrung aus zahlreichen Kundenprojekten kann ich sagen, dass unsere Experten und Expertinnen bei Mimacom ein breites Spektrum der Herausforderungen um Datenplattformen und Datenverwaltung erfolgreich für Sie lösen können. Setzen Sie sich also gerne mit uns in Kontakt und wir beraten Sie zu Ihrer individuellen Datenarchitektur.
Pawel Wasowicz
Pawel lebt in Bern und ist unser Head of Data Engineering. Er hilft unseren Kunden, durch optimale Nutzung der neuesten Trends, bewährter Technologien und seiner jahrelangen Erfahrung auf diesem Gebiet das meiste aus Ihren Daten zu machen.