Datenanreicherung

Excel Best Practices

Im IT-Umfeld ist es gelegentlich üblich zu diskutieren ob es in Ordnung ist, klassische Tabellenkalkulationsprogramme (Excel, Numbers, Calc, …) in der Arbeit mit Daten zu verwenden. Diplomatisch korrekt ist, dass sie in bestimmten Anwendungsfällen, wie der explorativen Datenanalyse und schnellen „Wegwerfarbeiten“ großartig sind, besonders für den Laien.

Excel kommt von Exzellenz

Eigentlich. In Anbetracht der enormen Bedeutung von Excel in nahezu jeder Branche, die Sie sich vorstellen können, ist der „richtige Umgang mit Excel“ von enormer Bedeutung. Es gibt viele gut dokumentierte Fälle von Excel-Fehlern, die zu verschiedenen Arten von Katastrophen führen. Ich werde hier nicht mit Links zu solchen Katastrophen langweilen, die Sie in Ihrer Lieblingssuchmaschine leicht finden können, sondern verweise auf die European Spreadsheet Risks Interest Group, eine Gruppe von Leuten, die zusammenkommen, um Konferenzen (!) zu veranstalten und Papiere darüber zu überprüfen, wie man es vermeiden kann, sein Unternehmen durch Tabellenkalkulationspannen zu ruinieren.

Was ist also ein guter Wissensstand in diesem Bereich?

Angesichts der Tatsache, dass es viele brillante Köpfe gibt, die sich intensiv mit dem Problem der Vermeidung von Fehlern in Tabellenkalkulationen beschäftigen, gibt es einige gute Referenzen, die man sich ansehen sollte. Die wahrscheinlich beste Referenz (auf die ich gestoßen bin) ist ein Artikel von Broman und Woo aus The American Statistician aus dem Jahr 2018, „Data Organization in Spreadhseets“. Darin werden viele gute Regeln für die Verwendung von Tabellenkalkulationen zum Sammeln, Speichern und Analysieren von Daten beschrieben.

Einige gemeinsame Themen

Ich empfehle dringend, sich die beiden oben genannten Referenzen anzuschauen, um mehr zu erfahren, aber ich fasse einige Themen zusammen, die mir aufgefallen sind
  • Verwenden Sie NIEMALS Farb-/Texteffekte, um aussagekräftige Daten anzuzeigen – dafür gibt es zwar viele Gründe, aber der wichtigste ist wohl, dass man nicht (einfach) eine Formel schreiben kann, die „wenn grün, dann 1“ ausdrückt.
  • Eine Kopfzeile für jede Datentabelle, und verwenden Sie bitte gute (verständliche, eindeutige usw.) Namen für die Felder
  • Ein Datenelement pro Zelle, kein „Brooklyn, NY 11223“ für „Stadt Staat PLZ“ in einer einzigen Zelle
  • Eine Zeile pro Datenpunkt, keine leeren Zellen in der Tabelle
  • Verwenden Sie Verknüpfungsschlüssel, um mehrere Tabellen miteinander zu verbinden.
  • ISO 8601 für Datumsangaben (2021-12-31)
    • Generell macht man sich in der IT das Leben leichter wenn Zeitstempel mit IS 8601 formatiert werden, da kann man nämlich zeitlich sortieren..
  • Konsistente Dateneingabe (Leerzeichen, Rechtschreibung, Großschreibung usw.), Verwendung der Validierungswerkzeuge zur Durchsetzung solcher Regeln
  • Formeln sollten konsistent für die gesamte Spalte/Zeile ohne Änderung gelten, keine einmalig geänderte Formel für Zeile 46
  • Behalten Sie die Rohdaten bei, ändern Sie sie nicht, verwende einen neuen Reiter.

Was müssen Sie also noch hinzufügen?

Ich wollte damit beginnen, die verschiedenen Themen unter den allgemeinen Kategorien zu klassifizieren, auf die sie abzielen: Macken in Excel (wie die Sache mit dem Datum), Vermeidung menschlicher Fehler, Vermeidung von Anti-Patterns usw. Aber wenn ich weiter darüber nachdenke, denke ich, dass eine solche Klassifizierung ein bisschen zu abstrakt wäre, um einem neuen Excel-Benutzer zu helfen, unentdeckte Probleme zu vermeiden. Wenn Sie daran interessiert sind, gibt es zum Glück ganze Abhandlungen, wie diese von Powell, Baker und Lawson aus dem Jahr 2008, die viele verschiedene Arten von Tabellenkalkulationsfehlern untersuchen und klassifizieren. Stattdessen gibt es meiner Meinung nach mindestens eine weitere Möglichkeit, Tabellenkalkulationen zu betrachten: Die Regeln zur Fehlervermeidung unterscheiden sich je nachdem, was Sie tun. Tabellenkalkulationen werden für eine Vielzahl von Datenaufgaben verwendet – Eingabe, Speicherung, Ad-hoc-Analyse, „verpacktes“ Analysewerkzeug und sogar gemeinsame Nutzung/Zusammenarbeit. Nicht jede Regel ist für alles relevant. Das allgemeine Motto „Menschen vor Fehlern bewahren“ bleibt bestehen, aber der Schwerpunkt verschiebt sich. Bei der Dateneingabe und -speicherung sind Sie vor allem daran interessiert, bestimmte Probleme zu vermeiden. Menschliche Fehler bei der Dateneingabe lassen sich durch Datenvalidierungstools verhindern. Die Sicherstellung, dass Ihre Daten „aufgeräumt“ sind (im R-Sinn von „aufgeräumten Daten“), in sauberen Ein-Zeilen-pro-Datenpunkt, mit Verbindungsschlüsseln über Tabellen hinweg, ist wichtig für die Speicherung und Pflege von Daten für die zukünftige Verwendung. Ich denke, dass sich die meisten Anleitungen zur Vermeidung von Tabellenkalkulationsproblemen auf diesen Teil der Dateneingabe/Speicherung konzentrieren. Da dies der häufigste Aspekt bei der Verwendung von Tabellenkalkulationen ist, liegt es auf der Hand, dass dies bei jedem Projekt in gewissem Maße der Fall ist. Daher wird er bei Fehlern natürlich stärker ins Gewicht fallen. Wenn die gemeinsame Nutzung und die Zusammenarbeit zu einem größeren Anliegen werden, müssen Sie sich mit der Frage auseinandersetzen, wie Sie sicherstellen können, dass andere Menschen sehen können, wo die Maschinen stehen“. Tabellenkalkulationen neigen dazu, die zugrunde liegende Maschinerie (die Formeln und Referenzen) standardmäßig zu verbergen. Es muss sichergestellt werden, dass jeder an ähnlichen Stellen nachschaut und erkennen kann, was geändert werden kann und was nicht. An dieser Stelle werden oft Konventionen über die Platzierung von Dingen, die Erstellung von Datenwörterbüchern und die Verwendung von Farben zur Hervorhebung von Dingen eingeführt.   Die Verwendungszwecke ändern sich ein wenig, wenn man zur Ad-hoc-Analyse übergeht. Jetzt ist es sehr wichtig, dass Sie Ihre Rohdaten in Ruhe lassen und einen Analysepfad auf Papier hinterlassen, der klar dokumentiert, wie Sie von den Rohdaten zur endgültigen Analyse gelangen. Es ist auch viel wichtiger, dass Sie organisiert bleiben und wissen, wann Sie Berechnungen in separate Arbeitsblätter auslagern müssen. Sie müssen sich auch Gedanken über die Speicherung von Formelparametern an gut sichtbaren Stellen machen (oft farblich hervorgehoben, um sie zu betonen!). Sie müssen auch Artefakte an leicht zu findenden Stellen ablegen, Parameter sollten sich in der Nähe des oberen und linken Randes befinden, Formeln müssen in einer Spalte der Datentabelle konsistent sein usw. Auch der Teil mit den aufgeräumten Daten beginnt in der Analysephase zu scheitern, da Sie schließlich anfangen müssen, Daten zu gruppieren, zu filtern und in formatierten Diagrammen und Tabellen zusammenzufassen. Die Dinge werden immer individueller, um den besonderen Anforderungen der Analyse- und Präsentationsschicht gerecht zu werden. Wenn Sie sich dann in den Bereich der „Tabellenkalkulation als verpacktes Analyseprodukt“ vorwagen, was in einem Beratungskontext ziemlich häufig vorkommt, haben Sie noch mehr Bedenken, dass Kunden eine Tabellenkalkulation versehentlich ändern/zerstören. Jetzt müssen Sie Dinge wie das Sperren von Blättern und Zellen einsetzen, um Missgeschicke zu verhindern. VBA und Skripte werden in diesem Bereich immer häufiger eingesetzt, und jetzt muss man sicherstellen, dass diese Dinge ordnungsgemäß dokumentiert sind, damit jeder, der die Tabelle pflegen will, auch nach Code suchen kann, der nicht sofort ersichtlich ist. Ehrlich gesagt wird über diese Phase der Tabellenkalkulation nicht allzu viel diskutiert, weil die Fähigkeiten, die man braucht, um diesen Punkt zu erreichen, weniger verbreitet sind. Wenn Sie VBA-Code für das Front-End Ihrer Tabellenkalkulation schreiben, befinden Sie sich bereits in einer neuen Dimension des Wahnsinns. Wie bei den meisten Dingen bietet der Eintritt in eine neue Dimension nur noch mehr Freiheitsgrade, um Probleme zu verursachen. Jetzt können Sie ganz einfach Programmierfehler einbauen, da Sie Zugang zu einer vollständigen Turing-Sprache haben. (Okay, ab 2021 sind auch die Excel-Formeln selbst Turing-komplett, so dass Sie auch auf diese Weise Fehler machen können. Siehe Tweet unten.) Und schließlich, nach dem Stadium des „paketierten Analyseprodukts“ für fortgeschrittene Tabellenkalkulationen (und oft auch schon davor), erreicht man einen Punkt der Komplexität, an dem die Antwort auf die Frage, wie man Probleme mit Tabellenkalkulationen minimieren kann, lautet: „Keine Tabellenkalkulationen mehr verwenden“. Oft wird diese Entscheidung getroffen, weil es für alle besser ist, eine echte Datenbank statt einer Tabellenkalkulation zu verwenden. Manchmal liegt es daran, dass man nicht mehr mit Excel-Formeln seltsame Geschäftslogik nachbilden möchte und es besser wäre, Produktionscode für diese Dinge zu verwenden. In anderen Fällen liegt es daran, dass Sie die Daten gemeinsam nutzen wollen oder dass sie mehreren Nutzern zur Verfügung stehen sollen. Sehr oft liegt es daran, dass der heiligen Excel-Datei etwas Tragisches zugestoßen ist und Daten auf tragische Weise verloren gegangen sind, und es gibt eine Motivation, es „richtig“ zu machen, jetzt, da klar ist, wie wichtig die Datei war. Idealerweise sollte man die Entscheidung treffen, bevor die Tragödie zuschlägt, aber die Menschen neigen dazu, den Status quo beizubehalten. finale-Version.54.echtjetzt.xlsxnn

Weiterführende Artikel

n

Weiterführende Artikel


Weiterlesen: Dashboard Sichtbarkeit · Controllingsoftware · Steuerbare Eingangsmetriken

Datensilos: Was sind sie und wie geht man mit ihnen um?

Was sind Datensilos?

Ein Datensilo ist ein Quelle fester Daten, das unter der Kontrolle einer Abteilung bleibt und vom Rest des Unternehmens isoliert ist. Sie entstehen in der Regel, wenn ein Team eine Lösung erstellt, die einem einzigen Zweck oder einer Gruppe von Zwecken im Zusammenhang mit einem einzigen Thema dient. Diese Lösung ist nicht mit anderen Teilen des Unternehmens verbunden und isoliert. Ein gutes Beispiel ist eine Datenbank mit Marketing-Leads, die nicht mit der zentralen Kundentabelle im Data Warehouse verknüpft ist.

Wozu können Datensilos führen?

Wenn Datensilos nicht rechtzeitig aufgelöst werden, erhält man im besten Fall kein vollständiges Bild. Man erhält Daten, die nicht so wertvoll sind, wie sie sein könnten, weil sie für andere Teams nicht zugänglich und nicht mit anderen Daten oder Tools im Unternehmen integriert sind. Wenn Sie beispielsweise die Daten Ihres Vertriebs- und Kundensupportteams zusammenführen, können Sie die Gründe für die Kundenabwanderung erfahren oder andere Kundenaktivitäten ermitteln, die Ihrem Unternehmen potenziell helfen können. Eine geringere Datenintegrität (da Sie mit mehreren Kopien von Datenbanken arbeiten, die sich überschneiden), eine geringere Datensicherheit und eine geringere Produktivität der Entwickler.

Wie geht man mit Datensilos um?

Eine Antwort auf Datensilos könnte die Zentralisierung von Daten sein – ein Konzept, das lange Zeit als heiliger Gral für Datenteams galt. Eine zentralisierte Datenbank, die verschiedene Lösungen, Tools und Unternehmensebenen miteinander verbindet und an einem Ort gepflegt und verwaltet wird, klingt für viele Unternehmen sehr verlockend. Heutzutage beginnen Experten jedoch, die Ziele und die Durchführbarkeit der Datenzentralisierung in Frage zu stellen und stellen fest, dass sie sich für die meisten Unternehmen als schwer realisierbar erwiesen hat, und betrachten sie sogar als einen ziemlich altmodischen Ansatz für die Datenverwaltung, denn: Ein gut gepflegtes, zentralisiertes Data Warehouse ist sehr komplex und schwer zu realisieren, es führt zu großen monolithischen Lösungen, die den Arbeitsablauf der Teams einschränken, es kann zu einem überspezialisierten Silo führen. Experten bezeichnen das Data Mesh als einen weitaus vorteilhafteren und praktischeren Ansatz für die Gestaltung und Entwicklung von Datenarchitekturen. Dieser Begriff umschreibt mehrere Data Warehouses in einem Unternehmen, die miteinander verbunden sind und zusammenarbeiten. In diesem Artikel gehen wir näher darauf ein, was Datensilos sind, was sie verursacht und warum sie schlecht für Ihr Unternehmen sind. Wir erläutern auch die Vorteile von Data Meshes im Detail und zeigen, wie Apache Airflow in dieses Bild passt.

Was sind die Ursachen für Datensilos in einem Unternehmen?

Um das Problem der Datensilos zu lösen, müssen Sie zunächst verstehen, was sie verursacht. Hier haben wir die 4 häufigsten Gründe für Datensilos zusammengestellt:

1. Überlastetes zentralisiertes Datenteam

Damit etwas funktioniert, braucht es Zeit. Wenn Ihr zentrales Datenteam überlastet ist, hat es möglicherweise nicht die Zeit auf jede neue Datenanfrage zu reagieren. Andere Teammitglieder haben vielleicht Daten, die sie für wertvoll halten und die bereinigt und rationalisiert werden müssen und sie wollen (oder können) nicht darauf warten, dass diese Daten zu den vorhandenen ETL- und Lagerverfahren hinzugefügt werden. Also fangen sie an, die Sache selbst in die Hand zu nehmen. Da Sie wahrscheinlich hoch qualifizierte und talentierte Mitarbeiter an Bord haben, werden sie eine vernünftige Lösung finden. Dabei handelt es sich jedoch um eine Einzellösung, die nicht in die übrigen Tools und Datenbanken des Unternehmens integriert ist. Ohne eine breitere Perspektive und großes systemisches Denken enden Sie mit Datensilos.

2. Verschiedene, nicht miteinander verbundene Datenbanken

Verschiedene Datenbanken neigen dazu, unterschiedliche Standards zu verwenden, und die Daten, die sie gemeinsam haben, stimmen möglicherweise nicht genau überein. Die Integration all dieser Datenquellen kann ausufernd werden. Je mehr unverbundene Datenbanken Sie haben, desto schwieriger wird es, die Daten zu katalogisieren, sie auf dem neuesten Stand zu halten und schließlich den Überblick über die Wahrheit zu behalten.

3. Veraltete oder falsche Tools für die Sammlung und Analyse von Daten

Eine Excel-Datei ist kein guter Ort, um Ihre Daten zu speichern und zu organisieren. Das mag offensichtlich erscheinen, ist aber ein häufigeres Problem, als Sie vielleicht denken. Außerdem verwenden einige Unternehmen möglicherweise ältere Tools, die nicht alle ihre Anforderungen erfüllen. Um Ihr Unternehmen skalierbar zu machen, müssen Sie in der Lage sein, Ihre Daten auf automatisierte, effiziente Weise zu verwalten und sich dabei auf moderne Tools für die Datenorchestrierung verlassen.

4. Ineffiziente Kommunikation und Unternehmenskultur

Um auf die Teams zurückzukommen, die an ihren eigenen Lösungen arbeiten… es ist nicht ihre Schuld. Wenn es an der Kommunikation zwischen den Führungskräften mangelt, wissen die Teammitglieder möglicherweise nicht einmal, dass es im Unternehmen zentralisierte Tools gibt, die sie nutzen sollten. Ein perfektes Beispiel dafür, dass ein Informationssilo ein Datensilo verursacht.

Warum Datensilos schlecht für Ihr Unternehmen sind

Wir alle wissen, dass Datensilos schlecht für das Geschäft sind, aber wissen Sie auch, wie genau sie Ihr Unternehmen beeinflussen? Natürlich können die negativen Auswirkungen von Datensilos von Unternehmen zu Unternehmen unterschiedlich sein, aber in diesem Artikel haben wir die häufigsten aufgeführt.

Geringere Datenintegrität

Datensilos führen dazu, dass Sie mehrere Kopien von Datenbanken haben, die sich überschneiden. Doppelte Daten führen zu verpassten Möglichkeiten, bessere und fundiertere Schlussfolgerungen zu ziehen. Mit anderen Worten: Es ist schwer, Ihren Daten zu vertrauen.

Kompromittierte Datensicherheit

Wenn Sie Ihre Daten in einer Excel-Datei aufbewahren oder sich auf unterschiedliche Datenquellen verlassen, können Sie nicht angemessen in verschiedene Sicherheitsebenen investieren. Unternehmen, die nicht in der Lage sind, eine umfassende Datensicherheit zu gewährleisten, haben es schwer, das Vertrauen ihrer Kunden aufrechtzuerhalten und auf dem wettbewerbsorientierten Markt zu bestehen.

Geringere Teamproduktivität

Datensilos führen zu Missverständnissen und einer schlechteren Zusammenarbeit zwischen Teams. Anstatt sich auf die Analyse von Daten zu konzentrieren, fundierte Schlussfolgerungen zu ziehen und das Unternehmen wachsen zu lassen, verschwenden Ihre Ingenieure ihre Zeit damit, herauszufinden, welche Daten wahr sind, wie sie eine gemeinsame Sprache finden können und warum ihnen bestimmte Informationen fehlen.

Datenzentralisierung oder Datennetz? Wie man Datensilos beseitigt

Bislang war die beliebteste Antwort auf die Beseitigung von Datensilos die Zentralisierung von Daten. Und es überrascht nicht, dass die Idee einer zentralen Datenbank, die verschiedene Lösungen, Tools und Ebenen des Unternehmens miteinander verbindet und an einem Ort gepflegt und verwaltet wird, sehr verlockend klingt und potenziell viele Vorteile mit sich bringen kann, z. B.:
  • Leichtere Handhabung für Entwickler
  • Leichtere und bessere Berichterstellung
  • Vereinheitlichung der Daten, die in verschiedenen Teams des Unternehmens verfügbar sind
  • Effizientere Datenverwaltung
  • Bessere Zusammenarbeit zwischen Teams
  • Mehr Sicherheit
Heutzutage befasst man sich jedoch eingehender mit der Datenzentralisierung und stellen fest, dass sie eine etwas altmodische Herangehensweise an die Datenverwaltung darstellt.

Monolithischen Lösungen – die zentrale Datenplattform

Und warum? Erstens ist ein gut verwaltetes, zentralisiertes Data Warehouse sehr komplex und schwer zu erreichen. Die Integration all dieser Daten in eine zentrale Datenbank dauert in der Regel Jahre. Man verfolgt den Ansatz Daten an einem Ort zu zentralisieren, um nützlich und wertvoll zu sein. Das führt zu großen monolithischen Lösungen, die in der Praxis eher einem Datensumpf gleichen. Da Teams durch diese monolithischen Lösungen eingeschränkt werden, versuchen sie, sie in kleinere, integrierte Teile aufzuteilen, in der Regel um technische Modi (z. B. Ingest, Process, Serve). Auf diese Weise werden die Teams um die Aufgaben und nicht um Anwendungsfälle oder Funktionen herum zerlegt. Das ist eine schlechte Nachricht, denn Anwendungsfälle und Funktionen lassen sich in der Regel nicht in solch übersichtlichen Kästchen unterteilen – meistens überschneiden sie sich. Zweitens führen zentralisierte Datenplattformen und monolithische Systeme zu einem überspezialisierten Silo. Das kann passieren wenn ein Unternehmen über hochspezialisierte Datenteams verfügt das maßgeschneiderte Lösungen entwickelt, die es unzureichend teilt. In diesem Fall steht die Lösung im Raum zwischen den Leuten die sie erstellen und jenen Endnutzer, die die Lösung brauchen. Sozusagen Insellösungen, die auf keiner Karte verzeichnet sind und nach einem meist einmaligen Anwendungsfall in Vergessenheit geraten.

Data Mesh – das Datengeflecht

Ein weitaus realistischerer, modernerer und vorteilhafterer Ansatz ist ein sogenanntes Data Mesh, das eine neue Art der Gestaltung und Entwicklung von Datenarchitekturen beschreibt. Der Schwerpunkt liegt dabei auf mehreren Data Warehouses in einem Unternehmen, die miteinander verbunden sind und zusammenarbeiten. Die Idee ist, dass Sie immer noch eine zentralisierte Governance und Standards haben, aber auch mehrere Zentren, die mit zentral verwalteten Datenflüssen (Pipelines) miteinander vernetzt sind.

Wie ETL-Orchestrierung helfen kann

Die Lösung ist ein Framework für die Datenorchestrierung, ein steuerbares Netzwerk miteinander verbundener Datenflüsse. Hierdurch können Sie die Integration mehrerer Plattformen, Tools, Anwendungen und Datenbanken aktiv steuern. Wenn Sie mit Daten arbeiten, tun Sie das in der Regel auf asynchrone Weise und versuchen herauszufinden, was funktioniert und was nicht. Irgendwann muss man dies jedoch formalisieren, denn ein wiederholter, kontinuierlicher Umgang mit Daten ist von großem Nutzen. Apache Airflow ist ein solcher Datenorchestrator, der es Ihnen ermöglicht, diese Formalisierung viel einfacher und schneller vorzunehmen. Mit Airflow können Sie:
  • Migrieren, stabilisieren, operationalisieren und integrieren Sie alle Ihre Legacy-Workloads. Sie können eine Multi-Tenant-Umgebung von einer einheitlichen Steuerungsebene aus steuern.
  • Entwickeln Sie eine zentrale Datenplattform oder ein Datengeflecht, das Ihren Anforderungen entspricht – und führen Sie Daten, Governance-Regeln und Geschäftslogik zusammen, die zuvor über verschiedene Teile des Unternehmens verstreut waren.
  • Geben Sie Ihren Entwicklungsteams eine Standardmethode für die Interaktion mit Daten an die Hand, um den für die Unterstützung ihrer Umgebungen erforderlichen betrieblichen Aufwand zu verringern.
nn

Weiterführende Artikel

n

Weiterführende Artikel


Weiterlesen: Dashboard als spezialisiertes Werkzeug · Costcenter versus Profitcenter · Steuerbare Eingangsmetriken

Nach oben scrollen