Beste Open-Source ETL Tools für die Datenintegration

0

Die Suche nach ETL- und Datenintegrationssoftware kann ein entmutigender (und teurer) Prozess sein, ein Prozess, der lange Stunden der Recherche und tiefe Taschen erfordert. Die beliebtesten Tools für die Verwaltung von Unternehmensdaten bieten oft mehr als das, was für Nicht-Unternehmensorganisationen notwendig ist, mit erweiterten Funktionen, die nur für die technisch versiertesten Benutzer relevant sind. Glücklicherweise gibt es eine Reihe freier und quelloffener ETL-Tools. Einige dieser Lösungen werden von Anbietern angeboten, die Ihnen schließlich ihr Unternehmensprodukt verkaufen wollen, und andere werden von einer Gemeinschaft von Entwicklern gewartet und betrieben, die den Prozess demokratisieren wollen.

In diesem Artikel zeige ich freie und quelloffene ETL-Tools, indem wir zunächst einen kurzen Überblick darüber geben, was zu erwarten ist, und auch mit kurzen Unschärfen über jede der derzeit verfügbaren Optionen im Raum. Dies ist das vollständigste und aktuellste Verzeichnis im Internet.

Apache Airflow

Apache Airflow ist eine pythonbasierte Plattform, die es ermöglicht Datenverarbeitungsschritte programmatisch zu erstellen, zu planen und zu überwachen. Das Tool ermöglicht es Benutzern, Workflows als gerichtete azyklische Graphen (DAGs) zu erstellen. Airflow führt Aufgaben für eine Reihe von Arbeitern aus, wobei er die angegebenen Abhängigkeiten beachtet. Airflow bietet umfangreiche Befehlszeilen-Dienstprogramme, die die Durchführung komplexer Operationen an DAGs einfach machen. Die Benutzeroberfläche bietet auch Funktionen, mit denen Benutzer Pipelines, die in Produktion sind, visualisieren, den Fortschritt überwachen und bei Bedarf Probleme beheben können.

Zum Download
Betriebssysteme: Webbasiert

Apache Kafka

Apache Kafka ist eine javabasierte Streaming-Plattform, die es Anwendern ermöglicht, Datenströme in beide Richtungen zu streamen, das heißt zu veröffentlichen und zu abonnieren, Datenströme zu speichern und sie bei ihrem Auftreten zu verarbeiten. Kafka wird vor allem für den Aufbau von Echtzeit-Streaming-Datenpipelines und -Anwendungen verwendet und wird als Cluster auf einem oder mehreren Servern ausgeführt, die sich über mehrere Rechenzentren erstrecken können. Der Kafka-Cluster speichert Ströme von Datensätzen in Kategorien, die als Themen bezeichnet werden, und jeder Datensatz besteht aus einem Schlüssel, einem Wert und einem Zeitstempel.

Zum Download
Betriebssysteme: Webbasiert

Apache NiFi

Apache NiFi ist ein javabasiertes System zur Verarbeitung und Verteilung von Daten und bietet gerichtete Graphen der Datenweiterleitung, Transformation und Systemvermittlungslogik. NiFi verfügt über eine webbasierte Benutzeroberfläche, mit der Benutzer zwischen Design, Steuerung, Feedback und Überwachung umschalten können. Es ist in hohem Maße konfigurierbar (dynamische Priorisierung, Gegendruck, Strömungsmodifikation zur Laufzeit) und kann für Erweiterungen ausgelegt werden. NiFi bietet auch Multi-Tenant-Autorisierung sowie interne Autorisierung und Richtlinienverwaltung.

Zum Download
Betriebssysteme: Webbasiert

Apatar

Apatar ist ein kostenloses und quelloffenes Softwarepaket zur Datenintegration, das Geschäftsanwendern und Entwicklern dabei helfen soll, Daten in und aus einer Vielzahl von Datenquellen und -formaten zu verschieben. Das Tool erfordert weder Programmierung noch Design, um selbst komplexe Integration mit Joins über mehrere Datenquellen hinweg zu bewerkstelligen. Apatar bietet eine visuelle Schnittstelle, um die Auswirkungen von Systemänderungen zu minimieren. Das Tool wird mit einem vorgefertigten Satz von Integrationswerkzeugen geliefert und ermöglicht es den Benutzern, auch bereits erstellte Mapping-Schemata wiederzuverwenden.

Zum Download
Betriebssysteme: Linux, Windows

Clover ETL

CloverETL (jetzt CloverDX) war eines der ersten Open-Source-ETL-Werkzeuge. Das Java-basierte Datenintegrations-Framework wurde entwickelt, um Daten in verschiedenen Formaten zu transformieren, abzubilden und zu manipulieren. CloverETL kann eigenständig oder eingebettet verwendet werden und verbindet sich mit RDBMS, JMS, SOAP, LDAP, S3, HTTP, FTP, ZIP und TAR. Obwohl das Produkt vom Anbieter nicht mehr angeboten wird, kann es mit SourceForge sicher heruntergeladen werden. CloverDX unterstützt auch weiterhin CloverETL gemäß ihrer Standard-Support-Vereinbarung.

Zum Download
Betriebssysteme: Linux, Mac, Windows

Jaspersoft ETL

Jaspersoft ETL ist javabasiert und Teil des Open-Source-Produktportfolios Community Edition von TIBCO, mit dem Benutzer Daten aus verschiedenen Quellen extrahieren, die Daten auf der Grundlage definierter Geschäftsregeln transformieren und in ein zentrales Data Warehouse für die Berichterstellung und Analyse laden können. Die Datenintegrationsmaschine des Tools wird von Talend betrieben. Die Community Edition bietet eine grafische Entwurfsumgebung, mehr als 500 Konnektoren und Komponenten sowie eine Job-Versionierung.

Zum Download
Betriebssysteme: Linux, Mac, Windows

KETL

KETL ist eine produktionsreife javabasierte ETL-Plattform, die die Entwicklung und Bereitstellung von Datenintegrationsbemühungen unterstützen soll, die ETL und Terminplanung erfordern. Es ermöglicht die Verwaltung komplexer Datenmanipulationen unter Nutzung einer Open-Source-Datenintegrationsplattform. Die KETL-Engine besteht aus einem Multi-Threading-Server, der verschiedene Auftragsausführer verwaltet. Jeder Ausführer führt eine bestimmte Funktion aus, und Auftragsausführer fallen in die Kategorien SQL, OS, XML, Sessionizer und Empty.

Zum Download
Betriebssysteme: Linux, Mac, Windows

Penthao Kettle

Pentaho Kettle ist ein freies ETL Communityprojekt (Teil der Hitachi Vantara Community) das von Penthao finanziell unterstützt wird. Das Tool bietet eine grafische Drag-and-Drop-Designumgebung und eine auf Standards basierende Architektur, die metadatengesteuert wird. Mit Pentaho können Benutzer ihre eigenen Datenmanipulationsaufträge erstellen, ohne eine einzige Codezeile eingeben zu müssen. Es verwendet ein gemeinsames, gemeinsam genutztes Repository, das auch eine entfernte ETL-Ausführung ermöglicht. Hitachi Vantara bietet auch Open-Source-Business-Intelligence-Tools für Reporting und Data Mining an.

Zum Download
Betriebssysteme: Linux, Mac, Windows

Talend Open Studio

Der BI-Hersteller Talend bietet mit Open Studio for Data Integration und OPEN STUDIO FOR BIG DATA kostenlose und quelloffene ETL-Tools an. Es bietet Anwendern eine grafische Designumgebung, ETL- und ELT-Unterstützung, Versionierung und ermöglicht den Export und die Ausführung von eigenständigen Jobs in Laufzeitumgebungen. Die Software bietet eine Vielzahl von Integrationsmöglichkeiten für RDBMS, SaaS, gebündelte Anwendungen und Technologien wie Dropbox, Box, SMTP, FTP/SFTP, LDAP und mehr.

Weiter bietet Talend auch freie Softwaretools für Datenaufbereitung und Datenqualität an.

Zum Download
Betriebssysteme: Windows, Mac

Skriptella

Scriptella ist ein in Java geschriebenes Open-Source-ETL- und Skriptausführungswerkzeug. Die Software ist unter Apache lizenziert. Scriptella wird in der Regel für die Ausführung von in SQL, JavaScript, JEXL und Velocity geschriebenen Skripts sowie für Datenbankmigrationen, datenbankübergreifende ETL-Operationen und automatisierte Datenbankschema-Upgrades verwendet. Zu den bemerkenswerten Merkmalen gehören eine einfache XML-Syntax für Skripte, die Fähigkeit, mit mehreren Datenquellen in einer einzigen Datei zu arbeiten, und die transaktionale Ausführung.

Zum Download
Betriebssysteme: Linux, Mac, Windows

GeoKettle

GeoKettle ist ein Metadaten-gesteuertes räumliches ETL-Werkzeug zur Integration verschiedener Geodatenquellen für den Aufbau und die Aktualisierung von Geodaten-Warehouses. Es handelt sich um eine raumgestützte Version des Pentaho-Kessels. GeoKettle profitiert auch von georäumlichen Fähigkeiten aus ausgereiften Open-Source-Bibliotheken wie JTS, GeoTools und deegree. Das Tool bietet auch einen kartografischen Viewer zur Vorschau Ihrer Transformationen, einschließlich Tools zur Kartenanpassung und grundlegende kartografische Funktionen.

Zum Download
Betriebssysteme: Linux, Mac, Windows

HPCC Systems

HPCC Systems ist eine Open-Source-Plattform mit einer Software-Architektur, die auf Commodity Shared-Nothing-Computerclustern implementiert ist und auf C++ basiert. Es ist so konfigurierbar, dass es sowohl parallele Batch-Datenverarbeitung als auch hochleistungsfähige Datenlieferungsanwendungen mit indizierten Datendateien unterstützt. Die ETL-Engine von HPCC heißt Thor und verwendet eine ECL-Skriptsprache, die speziell für die Arbeit mit großen Datenmengen entwickelt wurde.

Zum Download
Betriebssysteme: Linux, Mac, Windows

Schreibe einen Kommentar

Deine E-Mail-Adresse wird nicht veröffentlicht. Erforderliche Felder sind mit * markiert