Ein Data Lakehouse kombiniert die Vorteile von Data Lakes und Data Warehouses, indem Tabellen-Metadaten zu Dateien im Objektspeicher hinzugefügt werden. Die hinzugefügten Metadaten bieten zusätzliche Funktionen für Data Lakes, darunter Time Travel, ACID-Transaktionen (Atomicity, Consistency, Isolation, Durability), bessere Bereinigung und Durchsetzung von Schemata – Funktionen, die für Data Warehouses typisch sind, bei Data Lakes jedoch im Allgemeinen fehlen. Allerdings gehen offene Data Lakehouses wie jede Architektur mit gewissen Kompromissen einher. Das Speichern von Daten in einem offenen Tabellenformat kann wesentlich zu einer besseren Interoperabilität beitragen. Gleichzeitig kann dies jedoch auch zu einem Mehraufwand im Hinblick auf die Kompatibilität von Tool-Versionen und Upgrades führen. Zudem kann es schwierigere FinOps mit unterschiedlicher Abrechnung, variable Performance, begrenzte Parallelität und unterschiedliche Governance-Kontrollen und Audits in vielen Tools bedeuten.
EIGENSCHAFTEN EINES DATA LAKE
Trennung von Speicher- und Rechenressourcen
Praktisch unbegrenztes Daten-Repository
Gemischte Datentypen: strukturiert, semistrukturiert und unstrukturiert
Sprachauswahl für die Verarbeitung (aber nicht immer SQL)
Verarbeitung der Daten an Ort und Stelle
Direkter Zugang zu rohen Quelldaten
EIGENSCHAFTEN EINES DATA WAREHOUSE
Starke Data Governance, Datenzugriff nur über die Plattform
Hohe Performance und Unterstützung von Parallelität
Keine Bestandsermittlung oder Erfassung der Daten erforderlich
ACID-Transaktionen
Direkter Zugang zu kuratierten Daten
Versionshistorie, Time Travel
Sowohl Data Lakes als auch Data Warehouses sind große Daten-Repositorys. Der Unterschied zwischen Data Lakes und Data Warehouses besteht in ihrem Umgang mit Rechenressource und Speicher. Die Snowflake Data Cloud kann genutzt werden, um verschiedene Architekturmuster zu entwickeln und anzupassen, die die Anforderungen verschiedener Anwendungsfälle erfüllen. Snowflake bietet Kunden die Möglichkeit, Daten in einem verwalteten Repository zu erfassen, was im Allgemeinen als Data-Warehouse-Architektur bekannt ist. Zudem können sie Daten im Cloud-Objektspeicher, welcher als Data-Lake-Abfrage-Engine fungiert, auslesen und schreiben. Unabhängig vom Muster hält sich Snowflake streng an die Grundprinzipien Sicherheit, Governance, Performance und Unkompliziertheit.
EIGENSCHAFTEN EINES DATA LAKEHOUSE
Zusätzlich zu den oben genannten Eigenschaften bietet Snowflake für ein Data-Lakehouse-Muster noch die folgenden Funktionen:
Vollständig verwaltetes Tabellenformat
Apache Iceberg-Tabellenformat
Polyglotte Multi-Cluster-Rechenressourcen-Engine
Kosteneffiziente Performance für hohe Parallelität
SNOWFLAKE DATA CLOUD
Eine Datenplattform ist nicht auf ein einziges Architekturmuster beschränkt. Vielmehr sollte sie verschiedene Architekturmuster für zahlreiche Funktionen und Workloads aufweisen, wie etwa:
Analytics
Datenuntersuchung
Data Engineering für die Erfassung und Umwandlung von Daten
Eine flexible Plattform wie die von Snowflake erlaubt es Ihnen, sowohl traditionelle Business-Intelligence-Tools als auch neuere, fortschrittlichere Technologien zu nutzen, die künstliche Intelligenz, maschinelles Lernen, Data Science und Applikationen einbinden. Snowflake ist eine einheitliche Plattform, die für mehrere Arten von Workloads verwendet werden kann.