Was sind Datensilos?
Ein Datensilo ist ein Quelle fester Daten, das unter der Kontrolle einer Abteilung bleibt und vom Rest des Unternehmens isoliert ist. Sie entstehen in der Regel, wenn ein Team eine Lösung erstellt, die einem einzigen Zweck oder einer Gruppe von Zwecken im Zusammenhang mit einem einzigen Thema dient.
Diese Lösung ist nicht mit anderen Teilen des Unternehmens verbunden und isoliert. Ein gutes Beispiel ist eine Datenbank mit Marketing-Leads, die nicht mit der zentralen Kundentabelle im Data Warehouse verknüpft ist.
Wozu können Datensilos führen?
Wenn Datensilos nicht rechtzeitig aufgelöst werden, erhält man im besten Fall kein vollständiges Bild. Man erhält Daten, die nicht so wertvoll sind, wie sie sein könnten, weil sie für andere Teams nicht zugänglich und nicht mit anderen Daten oder Tools im Unternehmen integriert sind.
Wenn Sie beispielsweise die Daten Ihres Vertriebs- und Kundensupportteams zusammenführen, können Sie die Gründe für die Kundenabwanderung erfahren oder andere Kundenaktivitäten ermitteln, die Ihrem Unternehmen potenziell helfen können.
Eine geringere Datenintegrität (da Sie mit mehreren Kopien von Datenbanken arbeiten, die sich überschneiden), eine geringere Datensicherheit und eine geringere Produktivität der Entwickler.
Wie geht man mit Datensilos um?
Eine Antwort auf Datensilos könnte die Zentralisierung von Daten sein – ein Konzept, das lange Zeit als heiliger Gral für Datenteams galt. Eine zentralisierte Datenbank, die verschiedene Lösungen, Tools und Unternehmensebenen miteinander verbindet und an einem Ort gepflegt und verwaltet wird, klingt für viele Unternehmen sehr verlockend.
Heutzutage beginnen Experten jedoch, die Ziele und die Durchführbarkeit der Datenzentralisierung in Frage zu stellen und stellen fest, dass sie sich für die meisten Unternehmen als schwer realisierbar erwiesen hat, und betrachten sie sogar als einen ziemlich altmodischen Ansatz für die Datenverwaltung, denn:
Ein gut gepflegtes, zentralisiertes Data Warehouse ist sehr komplex und schwer zu realisieren,
es führt zu großen monolithischen Lösungen, die den Arbeitsablauf der Teams einschränken,
es kann zu einem überspezialisierten Silo führen.
Experten bezeichnen das Data Mesh als einen weitaus vorteilhafteren und praktischeren Ansatz für die Gestaltung und Entwicklung von Datenarchitekturen. Dieser Begriff umschreibt mehrere Data Warehouses in einem Unternehmen, die miteinander verbunden sind und zusammenarbeiten.
In diesem Artikel gehen wir näher darauf ein, was Datensilos sind, was sie verursacht und warum sie schlecht für Ihr Unternehmen sind. Wir erläutern auch die Vorteile von Data Meshes im Detail und zeigen, wie Apache Airflow in dieses Bild passt.
Was sind die Ursachen für Datensilos in einem Unternehmen?
Um das Problem der Datensilos zu lösen, müssen Sie zunächst verstehen, was sie verursacht. Hier haben wir die 4 häufigsten Gründe für Datensilos zusammengestellt:
1. Überlastetes zentralisiertes Datenteam
Damit etwas funktioniert, braucht es Zeit. Wenn Ihr zentrales Datenteam überlastet ist, hat es möglicherweise nicht die Zeit auf jede neue Datenanfrage zu reagieren.
Andere Teammitglieder haben vielleicht Daten, die sie für wertvoll halten und die bereinigt und rationalisiert werden müssen und sie wollen (oder können) nicht darauf warten, dass diese Daten zu den vorhandenen ETL- und Lagerverfahren hinzugefügt werden. Also fangen sie an, die Sache selbst in die Hand zu nehmen.
Da Sie wahrscheinlich hoch qualifizierte und talentierte Mitarbeiter an Bord haben, werden sie eine vernünftige Lösung finden. Dabei handelt es sich jedoch um eine Einzellösung, die nicht in die übrigen Tools und Datenbanken des Unternehmens integriert ist. Ohne eine breitere Perspektive und großes systemisches Denken enden Sie mit Datensilos.
2. Verschiedene, nicht miteinander verbundene Datenbanken
Verschiedene Datenbanken neigen dazu, unterschiedliche Standards zu verwenden, und die Daten, die sie gemeinsam haben, stimmen möglicherweise nicht genau überein. Die Integration all dieser Datenquellen kann ausufernd werden. Je mehr unverbundene Datenbanken Sie haben, desto schwieriger wird es, die Daten zu katalogisieren, sie auf dem neuesten Stand zu halten und schließlich den Überblick über die Wahrheit zu behalten.
3. Veraltete oder falsche Tools für die Sammlung und Analyse von Daten
Eine Excel-Datei ist kein guter Ort, um Ihre Daten zu speichern und zu organisieren. Das mag offensichtlich erscheinen, ist aber ein häufigeres Problem, als Sie vielleicht denken. Außerdem verwenden einige Unternehmen möglicherweise ältere Tools, die nicht alle ihre Anforderungen erfüllen. Um Ihr Unternehmen skalierbar zu machen, müssen Sie in der Lage sein, Ihre Daten auf automatisierte, effiziente Weise zu verwalten und sich dabei auf moderne Tools für die Datenorchestrierung verlassen.
4. Ineffiziente Kommunikation und Unternehmenskultur
Um auf die Teams zurückzukommen, die an ihren eigenen Lösungen arbeiten… es ist nicht ihre Schuld. Wenn es an der Kommunikation zwischen den Führungskräften mangelt, wissen die Teammitglieder möglicherweise nicht einmal, dass es im Unternehmen zentralisierte Tools gibt, die sie nutzen sollten. Ein perfektes Beispiel dafür, dass ein Informationssilo ein Datensilo verursacht.
Warum Datensilos schlecht für Ihr Unternehmen sind
Wir alle wissen, dass Datensilos schlecht für das Geschäft sind, aber wissen Sie auch, wie genau sie Ihr Unternehmen beeinflussen? Natürlich können die negativen Auswirkungen von Datensilos von Unternehmen zu Unternehmen unterschiedlich sein, aber in diesem Artikel haben wir die häufigsten aufgeführt.
Geringere Datenintegrität
Datensilos führen dazu, dass Sie mehrere Kopien von Datenbanken haben, die sich überschneiden. Doppelte Daten führen zu verpassten Möglichkeiten, bessere und fundiertere Schlussfolgerungen zu ziehen. Mit anderen Worten: Es ist schwer, Ihren Daten zu vertrauen.
Kompromittierte Datensicherheit
Wenn Sie Ihre Daten in einer Excel-Datei aufbewahren oder sich auf unterschiedliche Datenquellen verlassen, können Sie nicht angemessen in verschiedene Sicherheitsebenen investieren. Unternehmen, die nicht in der Lage sind, eine umfassende Datensicherheit zu gewährleisten, haben es schwer, das Vertrauen ihrer Kunden aufrechtzuerhalten und auf dem wettbewerbsorientierten Markt zu bestehen.
Geringere Teamproduktivität
Datensilos führen zu Missverständnissen und einer schlechteren Zusammenarbeit zwischen Teams. Anstatt sich auf die Analyse von Daten zu konzentrieren, fundierte Schlussfolgerungen zu ziehen und das Unternehmen wachsen zu lassen, verschwenden Ihre Ingenieure ihre Zeit damit, herauszufinden, welche Daten wahr sind, wie sie eine gemeinsame Sprache finden können und warum ihnen bestimmte Informationen fehlen.
Datenzentralisierung oder Datennetz? Wie man Datensilos beseitigt
Bislang war die beliebteste Antwort auf die Beseitigung von Datensilos die Zentralisierung von Daten. Und es überrascht nicht, dass die Idee einer zentralen Datenbank, die verschiedene Lösungen, Tools und Ebenen des Unternehmens miteinander verbindet und an einem Ort gepflegt und verwaltet wird, sehr verlockend klingt und potenziell viele Vorteile mit sich bringen kann, z. B.:
- Leichtere Handhabung für Entwickler
- Leichtere und bessere Berichterstellung
- Vereinheitlichung der Daten, die in verschiedenen Teams des Unternehmens verfügbar sind
- Effizientere Datenverwaltung
- Bessere Zusammenarbeit zwischen Teams
- Mehr Sicherheit
Heutzutage befasst man sich jedoch eingehender mit der Datenzentralisierung und stellen fest, dass sie eine etwas altmodische Herangehensweise an die Datenverwaltung darstellt.
Monolithischen Lösungen – die zentrale Datenplattform
Und warum? Erstens ist ein gut verwaltetes, zentralisiertes Data Warehouse sehr komplex und schwer zu erreichen. Die Integration all dieser Daten in eine zentrale Datenbank dauert in der Regel Jahre.
Man verfolgt den Ansatz Daten an einem Ort zu zentralisieren, um nützlich und wertvoll zu sein. Das führt zu großen monolithischen Lösungen, die in der Praxis eher einem Datensumpf gleichen.
Da Teams durch diese monolithischen Lösungen eingeschränkt werden, versuchen sie, sie in kleinere, integrierte Teile aufzuteilen, in der Regel um technische Modi (z. B. Ingest, Process, Serve). Auf diese Weise werden die Teams um die Aufgaben und nicht um Anwendungsfälle oder Funktionen herum zerlegt.
Das ist eine schlechte Nachricht, denn Anwendungsfälle und Funktionen lassen sich in der Regel nicht in solch übersichtlichen Kästchen unterteilen – meistens überschneiden sie sich.
Zweitens führen zentralisierte Datenplattformen und monolithische Systeme zu einem überspezialisierten Silo. Das kann passieren wenn ein Unternehmen über hochspezialisierte Datenteams verfügt das maßgeschneiderte Lösungen entwickelt, die es unzureichend teilt. In diesem Fall steht die Lösung im Raum zwischen den Leuten die sie erstellen und jenen Endnutzer, die die Lösung brauchen. Sozusagen Insellösungen, die auf keiner Karte verzeichnet sind und nach einem meist einmaligen Anwendungsfall in Vergessenheit geraten.
Data Mesh – das Datengeflecht
Ein weitaus realistischerer, modernerer und vorteilhafterer Ansatz ist ein sogenanntes Data Mesh, das eine neue Art der Gestaltung und Entwicklung von Datenarchitekturen beschreibt.
Der Schwerpunkt liegt dabei auf mehreren Data Warehouses in einem Unternehmen, die miteinander verbunden sind und zusammenarbeiten. Die Idee ist, dass Sie immer noch eine zentralisierte Governance und Standards haben, aber auch mehrere Zentren, die mit zentral verwalteten Datenflüssen (Pipelines) miteinander vernetzt sind.
Wie ETL-Orchestrierung helfen kann
Die Lösung ist ein Framework für die Datenorchestrierung, ein steuerbares Netzwerk miteinander verbundener Datenflüsse. Hierdurch können Sie die Integration mehrerer Plattformen, Tools, Anwendungen und Datenbanken aktiv steuern.
Wenn Sie mit Daten arbeiten, tun Sie das in der Regel auf asynchrone Weise und versuchen herauszufinden, was funktioniert und was nicht. Irgendwann muss man dies jedoch formalisieren, denn ein wiederholter, kontinuierlicher Umgang mit Daten ist von großem Nutzen.
Apache Airflow ist ein solcher Datenorchestrator, der es Ihnen ermöglicht, diese Formalisierung viel einfacher und schneller vorzunehmen.
Mit Airflow können Sie:
- Migrieren, stabilisieren, operationalisieren und integrieren Sie alle Ihre Legacy-Workloads. Sie können eine Multi-Tenant-Umgebung von einer einheitlichen Steuerungsebene aus steuern.
- Entwickeln Sie eine zentrale Datenplattform oder ein Datengeflecht, das Ihren Anforderungen entspricht – und führen Sie Daten, Governance-Regeln und Geschäftslogik zusammen, die zuvor über verschiedene Teile des Unternehmens verstreut waren.
- Geben Sie Ihren Entwicklungsteams eine Standardmethode für die Interaktion mit Daten an die Hand, um den für die Unterstützung ihrer Umgebungen erforderlichen betrieblichen Aufwand zu verringern.