Bei einem Data Lake handelt es sich um ein Repository von Daten, welches für gewöhnlich in einem Dateiformat mit variabler Organisation oder Hierarchie gespeichert wird. Data Lakes werden auf Objektspeichern gebaut und können alle Arten von Daten aus einer Vielzahl von Quellen heraus speichern.
Auf ihnen werden typischerweise eine große Menge an Daten in ihrem rohem, nativem Format gespeichert. Die Daten sind nach Bedarf verfügbar; Beim Abfragen eines Data Lakes wird auf Grundlage der Abfragekriterien eine Teilmenge von Daten ausgewählt und zur Analyse bereitgestellt.
ZWECK
Ein Data Lake stellt für Anwender:innen eine ganzheitliche Methode dar, um Petabytes an Daten zu erfassen, zu optimieren und zu analysieren, die kontinuierlich aus verschiedenen Datenquellen eingehen. Ein Petabyte Daten entspricht 1 Million Gigabytes: etwa 500 Milliarden Seiten gedruckter Standardtext oder 58.333 hochauflösende, zweistündige Filme. Data Lakes ermöglichen es Anwender:innen, Daten großer Volumina, großer Vielfalt und hoher Geschwindigkeit zu untersuchen und zu analysieren.
EIGENSCHAFTEN
Folgende Eigenschaften unterscheiden Data Lakes von anderen Arten großer Datenspeicher:
Offen für alle Daten, unabhängig von Art und Quelle
Daten werden in ursprünglichem, rohem, unverändertem Zustand gespeichert
Daten werden nur dann umgewandelt, wenn sie auf Grundlage entsprechender Abfragekriterien zur Analyse bereitgestellt werden
VORTEILE VON DATA LAKES
Die quell- und formatagnostischen Eigenschaften der in einem Data Lake gespeicherten Daten bietet Unternehmen verschiedene Vorteile, darunter:
Flexibilität, da Data Scientists Daten in ihrer rohesten Form für Feature Engineering und maschinelles Lernen nutzen können
Zugänglichkeit, da alle Daten zentral gespeichert sind
Erschwinglichkeit, da Objektspeicher für Data Lakes typischerweise günstig sind
Kompatibilität mit den meisten Open-Source-Technologien für Data Analytics
Allumfassend, da Daten aus allen Datenquellen eines Unternehmens kombiniert werden können, einschließlich IoT
DATA LAKE UND DATA WAREHOUSE IM VERGLEICH
Sowohl Data Lakes als auch Data Warehouses sind große Daten-Repositorys. Der Hauptunterschied zwischen ihnen liegt in Rechenressourcen und Speicher. Ein Data Warehouse speichert Daten für gewöhnlich in einer vorher festgelegten Gliederung mit einem Schema. Bei einem Data Lake liegt nicht immer ein vorher definiertes Schema vor. Und während ein Data Warehouse normalerweise strukturierte Daten in Form von Tabellen speichert, speichert ein Data Lake strukturierte, semistrukturierte und unstrukturierte Daten als Dateien.
Vergleich: Data Lake und Data Warehouse
Data Lake | Data Warehouse | |
Art der Daten | Strukturiert und unstrukturiert, aus einer beliebigen Quelle, roh | Strukturiert, kuratiert |
Schema | Nicht vorher festgelegt | Vorher festgelegt |
Typische Anwender:innen | Data Scientists, Entwickler:innen und Datenanalyst:innen | Datenanalyst:innen |
DATA LAKES IN DER CLOUD
Das schiere Volumen von Daten – insbesondere die ungefilterten Daten eines Data Lakes – erschwert das skalierbare On-Premise-Speichern von Daten. Amazon S3, Snowflake und Microsoft Azure Data Lake sind einige cloudbasierte Datenspeicheranbieter, die die Speicherung von Daten variabler Größe und Geschwindigkeit für die Verarbeitung und Analyse ermöglichen.
SNOWFLAKE ALS DATA LAKE
Die Plattform von Snowflake vereint die Vorteile von Data Lakes, Data Warehousing und Cloudspeicher. Mit Snowflake als Ihr zentrales Daten-Repository für strukturierte, semistrukturierte und unstrukturierte Daten profitieren Sie von einem zentralen Datenmanagement mit kostengünstiger Performance, hoher Verfügbarkeit, Sicherheit, Governance und umfangreichen Möglichkeiten der Kollaboration. Alternativ können Sie Ihre Daten in Amazon S3, Azure Data Lake, Google Cloud Storage oder S3-kompatiblen Speichern speichern und Snowflake für Data Governance, Data Engineering, Analytik und Kollaboration nutzen.