データレイクハウスアーキテクチャは、オブジェクトストレージのファイルにテーブルメタデータを追加することで、データレイクとデータウェアハウスの長所を組み合わせるようになっています。この追加メタデータは、タイムトラベル、ACIDトランザクション、優れたプルーニング、スキーマ適用、データウェアハウスで一般的であるものの、データレイクには通常は備わっていない機能などの追加機能をデータレイクに提供します。ただし、他のアーキテクチャと同様に、データレイクハウスにはトレードオフがあります。データをオープンテーブルフォーマットで保存すると、相互運用性の改善に大いに役立ちますが、ツールのバージョン互換性およびアップグレードに関するオーバーヘッドの増大、異なる請求によるFinOpsの困難化、不安定なパフォーマンス、限定された同時実行性サポート、複数の異なるガバナンス制御および多数のツールの監査などの問題が生じる可能性があります。
データレイクの機能
ストレージとコンピュートの分離
事実上無限のスケールのデータリポジトリ
データタイプの混在:構造化、半構造化、非構造
処理に使用する言語を選択可能(ただし、必ずしもSQLではない)
所定の場所でのデータ処理
未加工のソースデータへのアクセス
データウェアハウスの機能
強力なデータガバナンス、プラットフォーム経由でのみデータにアクセス可能
高いパフォーマンスと同時実行性サポート
データの一覧表の作成やデータの取り込みが不要
ACIDトランザクション
キュレーション済みデータへの直接アクセス
バージョン履歴、タイムトラベル
データレイクとデータウェアハウスはどちらもビッグデータリポジトリです。データレイクとデータウェアハウスの違いは、コンピュートとストレージの扱い方にあります。Snowflakeデータクラウドを使用すると、さまざまなユースケースのニーズに合致するさまざまなアーキテクチャパターンを構築し、それらに適応できます。Snowflakeは、マネージドリポジトリへのデータを、一般にデータウェアハウスのアーキテクチャと呼ばれるものに取り込む機能や、データレイクのクエリエンジンとして機能するクラウドオブジェクトストレージのデータを読み書きする機能をお客様に提供します。Snowflakeは、パターンに関係なく、強力なセキュリティ、ガバナンス、パフォーマンス、シンプルさという中核的信条に従います。
データレイクハウスの機能
Snowflakeは、上記の機能に加えて、データレイクハウスパターン向けに以下の機能も提供します。
フルマネージド型テーブルフォーマット
Apache Icebergテーブルフォーマット
ポリグロットのマルチクラスターコンピュートエンジン
高い同時実行性を実現するコスト効率の高いパフォーマンス
SNOWFLAKEデータクラウド
データプラットフォームは、単一のアーキテクチャパターンに制限されません。むしろ、以下のような多数の機能とワークロードに対応できるように多数のアーキテクチャパターンを備えている必要があります。
アナリティクス
データ探索
データの取り込みおよび変換のためのデータエンジニアリング
Snowflakeのような柔軟なプラットフォームでは、従来のビジネスインテリジェンスツールに加え、人工知能、機械学習、データサイエンス、アプリケーション専用のより新しくより高度なテクノロジーを使用できます。Snowflakeは、複数の種類のワークロードを強化するために使用できるシングルプラットフォームです。