Eine Daten-Pipeline ist eine Methode, um Daten von einem Ort zu einem Ziel zu übertragen (z. B. zu einem Data Warehouse). Hierbei werden die Daten gleichzeitig optimiert und umgewandelt. So kommen die Daten in einem Zustand beim Ziel an, in dem sie sofort analysiert werden können, um daraus Geschäftseinblicke zu gewinnen.
Eine Daten-Pipeline umfasst sämtliche Schritte, die bei der Aggregation, Organisation und Übertragung von Daten zum Einsatz kommen. Und moderne Daten-Pipelines automatisieren viele der manuellen Schritte zur Umwandlung und Optimierung der kontinuierlichen Datenflut. In der Regel werden hierfür Rohdaten in eine Staging-Tabelle geladen, um sie zwischenzuspeichern und anzupassen, bevor sie letztlich in die Ziel-Reporting-Tabellen eingefügt werden.
VORTEILE EINER DATEN-PIPELINE
Ihr Unternehmen arbeitet wahrscheinlich mit Unmengen von Daten. Um sie alle zu analysieren, brauchen Sie eine zentrale Schnittstelle, über die Sie das gesamte Dataset einsehen können. Und wenn sich diese Daten in verschiedenen Systemen und Services befinden, müssen sie auf eine Weise kombiniert werden, die tiefgreifende Analysen ermöglicht. Der Datenfluss selbst kann unzuverlässig sein: Während der Übertragung von einem System zum nächsten gibt es viele Punkte, an denen Daten beschädigt werden oder Engpässe entstehen können. Und mit zunehmender Bedeutung und Menge der Daten verschärfen sich diese Probleme und ihre Auswirkungen.
Deshalb sind Daten-Pipelines entscheidend: Sie beseitigen die meisten manuellen Schritte aus dem Prozess und ermöglichen einen reibungslosen, automatisierten Datenfluss von einer Phase zur nächsten. Sie sind außerdem unerlässlich für Echtzeitanalytik, um schnellere, datengestützte Entscheidungen treffen zu können. Daten-Pipelines sind wichtig, wenn Ihr Unternehmen …
sich auf Echtzeit-Datenanalysen verlässt
Daten in der Cloud speichert
Daten in mehreren Quellen speichert
Indem Sie Daten aus Ihren verschiedenen Datensilos in einer Single Source of Truth konsolidieren, gewährleisten Sie nicht nur beständige Datenqualität, sondern ermöglichen außerdem schnelle Datenanalysen und damit auch schnelle Geschäftseinblicke.
ELEMENTE
Daten-Pipelines bestehen aus drei grundlegenden Elementen: Quelle(n), Verarbeitungsschritten und einem Ziel.
1. Quellen
Quellen sind die Orte, von denen Daten stammen. Beliebte Quellen sind relationale Datenbank-Management-Systeme wie MySQL, CRMs wie Salesforce oder HubSpot, ERPs wie SAP und Oracle, Tools für Social-Media-Management und sogar IoT-Sensoren.
2. Verarbeitungsschritte
Im Allgemeinen werden Daten aus Quellen extrahiert, dann gemäß den Geschäftsanforderungen bearbeitet und anschließend am Ziel bereitgestellt. Hierbei kommen häufig Schritte wie Umwandlung, Ergänzung, Filterung, Gruppierung und Aggregierung zum Einsatz.
3. Ziel
Ein Ziel ist der Ort, an dem Daten nach Ende der Verarbeitung ankommen, um analysiert zu werden – in der Regel ein Data Lake oder ein Data Warehouse.
DATEN-PIPELINE UND ETL IM VERGLEICH
ETL steht für „Extract, Transform, Load“, also Extrahieren, Umwandeln, Laden. Diese Systeme sind eine Unterart von Daten-Pipeline, die Daten aus einer Quelle abrufen, sie umwandeln und dann an einen Zielort laden. Doch ETL ist in der Regel nur ein Unterprozess. Je nach Art der Pipeline kann ETL automatisiert werden oder sogar ganz wegfallen. Der Begriff „Daten-Pipeline“ ist hingegen breiter gefasst: Er beschreibt den gesamten Prozess, der für die Datenübertragung von einem Ort zum anderen zum Einsatz kommt.
EIGENSCHAFTEN EINER DATEN-PIPELINE
Nur mit leistungsstarken End-to-End-Daten-Pipelines können Sie Daten richtig beschaffen, erfassen, verwalten, analysieren und effektiv nutzen. Und so können Sie neue Marktchancen ergreifen und Geschäftsprozesse kostengünstiger gestalten. Mit modernen Daten-Pipelines lassen sich schnell und effizient Informationen aus den erfassten Daten extrahieren.
Hier einige wichtige Eigenschaften, auf die Sie beim Aufbau einer Daten-Pipeline achten sollten:
Kontinuierliche und erweiterbare Datenverarbeitung
Elastizität und Agilität der Cloud
Isolierte und voneinander unabhängige Ressourcen für die Datenverarbeitung
Demokratisierter Datenzugriff und Self-Service-Management
Hohe Verfügbarkeit und Notfallwiederherstellung
IN DER CLOUD
Moderne Daten-Pipelines können Ihrem Unternehmen viele Vorteile bieten, darunter einfacheren Zugriff auf Einblicke und Informationen, eine schnellere Entscheidungsfindung und die Flexibilität und Agilität, Bedarfsspitzen zu bewältigen. Moderne, cloudbasierte Daten-Pipelines bieten sofortige Elastizität zu deutlich geringeren Kosten als klassische Lösungen. Sie sind ein leistungsstarker Motor, der Daten wie auf einem Fließband durch verschiedene Filter, Anwendungen und APIs leitet, um sie letztlich in einsatzbereiter Form am Zielort bereitzustellen. Diese Pipelines ermöglichen eine agile Bereitstellung bei Bedarfsspitzen, vereinfachen den Zugang zu gemeinsamen Daten und unterstützen eine schnelle Bereitstellung im gesamten Unternehmen.
DATEN-PIPELINES BEI SNOWFLAKE
Snowpark ist ein Developer-Framework für Snowflake, das in Python, Java und Scala geschriebene Datenverarbeitungen und -Pipelines mit der elastischen Verarbeitungs-Engine von Snowflake verbindet. Mit Snowpark können Data Engineers, Data Scientists und Data Developers Pipelines ausführen, um ML-Modelle (maschinelles Lernen) und Datenapplikationen schneller und sicherer mit Daten zu versorgen – auf einer einzigen Plattform und in der Programmiersprache ihrer Wahl.
Mit modernem Data Engineering auf der Plattform von Snowflake können Sie Daten-Pipelines einsetzen, um Daten in Ihren Data Lake oder Ihr Data Warehouse einzuspeisen. Die Daten-Pipelines in Snowflake können im Batch oder kontinuierlich ausgeführt werden – die Verarbeitung kann hierbei direkt in Snowflake erfolgen. Dank der Multi-Cluster-Rechenressourcen von Snowflake können diese Pipelines komplexe Umwandlungen bewältigen, ohne dass hierunter die Performance anderer Workloads leidet.
Wenn Sie mehr erfahren möchten, laden Sie unser E-Book herunter: Five Characteristics of a Modern Data Pipeline.
Erfahren Sie mehr über die Snowflake Data Cloud.