ETL steht für „Extract, Transform, Load“, also für Extrahieren, Umwandeln und Laden. Mit diesen drei Prozessen werden Daten aus verschiedenen Quellen zu einem einheitlichen Repository hinzugefügt, in der Regel einem Data Warehouse. Hierdurch können die Daten analysiert werden, um aussagekräftige Geschäftsinformationen zu gewinnen, oder sie können für erweiterte Analysen oder Business-Intelligence-Prozesse aufbereitet werden.
Da sich Data Engineers bestens damit auskennen, Daten mithilfe verschiedener Systeme und Tools für die Nutzung vorzubereiten, fällt ETL in den Bereich des Data Engineerings. Beim Data Engineering werden Daten erfasst, umgewandelt, bereitgestellt und geteilt, damit sie für Analysen genutzt werden können. Diese grundlegenden Aufgaben werden über Daten-Pipelines ausgeführt, die den Prozess auf wiederholbare Weise automatisieren. Eine Daten-Pipeline umfasst verschiedene Elemente zur Datenverarbeitung, die Daten von der Quelle zum Ziel übertragen und dabei oft auch ihr Format umwandeln (von Rohdaten zu analytikbereiten Informationen).
WELCHEN ZWECK ERFÜLLT ETL?
Mit ETL können Unternehmen Daten aus verschiedenen Datenbanken und anderen Quellen in einem zentralen Repository konsolidieren. So erhalten sie einheitliche Daten, die für spätere Analysen formatiert und qualifiziert wurden. Dieses einheitliche Daten-Repository ermöglicht einfachen Datenzugriff für spätere Analysen und die weitere Verarbeitung. Außerdem entsteht so eine Single Source of Truth, die gewährleistet, dass sämtliche Unternehmensdaten einheitlich und aktuell sind.
ETL-PROZESS
Insgesamt gibt es drei separate ETL-Prozesse. Sie lauten:
Extraktion, bei der Rohdaten aus einer oder mehreren Quellen abgerufen werden. Die Daten können aus Transaktionsapplikationen, wie z. B. CRM-Daten (Customer Relationship Management) aus Salesforce oder ERP-Daten (Enterprise Resource Planning) von SAP, oder von IoT-Sensoren (Internet of Things) stammen, die beispielsweise Messwerte aus Produktionslinien oder Werkshallen erfassen. Beim Aufbau eines Data Warehouse umfasst die Extraktion in der Regel die Kombination von Daten aus den verschiedenen Quellen in einem einzigen Dataset. Anschließend werden die Daten validiert, wobei ungültige Daten gekennzeichnet oder entfernt werden. Die extrahierten Daten können in verschiedenen Formaten vorliegen, darunter relationale Datenbanken, XML oder JSON.
Umwandlung, wobei Daten aktualisiert werden, damit sie den Anforderungen des Unternehmens und seiner Datenspeicher-Lösung entsprechen. Die Umwandlung kann verschiedene Vorgänge umfassen, wie z. B. Standardisierung (also die Umwandlung aller Datentypen in dasselbe Format), Bereinigung (Behebung von Unbeständigkeiten und Ungenauigkeiten), Zuordnung (Kombination von Datenelementen aus zwei oder mehr Datenmodellen) oder Ergänzung (Hinzufügen von Daten aus anderen Quellen). Während dieses Prozesses, werden Regeln und Funktionen angewendet und Daten bereinigt, um zu verhindern, dass schlechte oder unpassende Daten das Ziel-Repository erreichen. Diese Regeln können beispielsweise vorsehen, dass nur bestimmte Spalten geladen oder dass Daten dedupliziert und zusammengeführt werden.
Laden, wobei Daten bereitgestellt und geschützt werden, damit sie mit anderen geteilt werden können. So erhalten Teams und Abteilungen inner- und außerhalb des Unternehmens Zugang zu einsatzbereiten Daten. Bei diesem Prozess können auch bestehende Daten am Zielort überschrieben werden.
ETL UND ELT IM VERGLEICH
ELT (Extract, Load, Transform) ist eine Variation von ETL, bei der Daten erst extrahiert und geladen werden, bevor sie dann umgewandelt werden. Mithilfe dieser geänderten Abfolge können Unternehmen Rohdaten vorab an einen Ort laden, an dem sie bearbeitet werden können. ELT wird in der Regel für die Konsolidierung von Daten in einem Data Warehouse eingesetzt, da cloudbasierte Data-Warehouse-Lösungen in der Lage sind, die Verarbeitung zu skalieren.
„Extract, Load, Transform“ eignet sich besonders gut für erweiterte Analytik. So können beispielsweise Data Scientists Daten in einen Data Lake laden und sie dann mit einer anderen Datenquelle kombinieren oder für das Training prädiktiver Modelle einsetzen. Da die Daten hierbei in einem Rohformat (oder zumindest in einem weniger stark verarbeiteten Format) vorliegen, stehen Data Scientists breitere Optionen offen. Dieser Ansatz ist schneller, da er die Leistungsfähigkeit moderner Verarbeitungs-Engines nutzt und unnötige Datenverschiebungen reduziert.
ETL-TOOLS
ETL-Tools automatisieren die Extraktions-, Umwandlungs- und Ladeprozesse, die Daten aus verschiedenen Datenquellen oder -banken konsolidieren. Diese Tools bieten verschiedene Funktionen, darunter Datenprofile, -bereinigung oder das Hinzufügen von Metadaten. Sie müssen nicht nur sicher sein und sich einfach verwenden und verwalten lassen, sondern auch mit allen Komponenten bestehender Datenlösungen kompatibel sein.
SNOWFLAKE UND ETL
Der ETL-Prozess beinhaltet verschiedene potenzielle Fehlerquellen (Points of Failure). Mit Snowflake entfallen langwierige, riskante und oft arbeitsintensive ETL-Prozesse, da Teams Daten ganz einfach internen und externen Partnern zur Verfügung stellen können – über Secure Data Sharing und Data Collaboration.
Snowflake unterstützt Umwandlungen während (ETL) oder nach dem Laden (ELT) und funktioniert mit verschiedensten Datenintegrationstools, darunter Informatica, Talend, Tableau, Matillion und viele mehr.
Im Data Engineering sorgen neue Tools und Self-Service-Pipelines dafür, dass klassische Aufgaben wegfallen, wie z. B. ETL-Programmierung und Datenbereinigung. Snowpark ist ein Developer-Framework für Snowflake, das in Python, Java und Scala geschriebene Datenverarbeitungen und -Pipelines mit der elastischen Verarbeitungs-Engine von Snowflake verbindet. Mit Snowpark können Data Engineers, Data Scientists und Data Developers Pipelines ausführen, um ML-Modelle (maschinelles Lernen) und Datenapplikationen schneller und sicherer mit Daten zu versorgen – auf einer einzigen Plattform und in der Programmiersprache ihrer Wahl.
Dank der einfachen ETL- und ELT-Optionen von Snowflake können Data Engineers mehr Zeit in wichtige Projekte stecken, um ihre Datenstrategie und -Pipeline zu optimieren. Und wenn Sie die Cloud-Plattform von Snowflake als Data Lake und Data Warehouse verwenden, fällt ETL komplett weg, da keine Vorabumwandlungen oder -Schemas erforderlich sind.
Erfahren Sie mehr über die Data Cloud.