データレイクアーキテクチャの主な目的は、大量の構造化、半構造化、非構造化データをネイティブフォーマットで保存することです。データレイクアーキテクチャは近年、データ量が増加し続ける中でますますデータドリブンになっている企業の需要をより良く満たせるように進化しています。
そして最新のデータレイク環境は、よく知られているSQLツールを使用して操作できます。最新のデータレイクはすべてのストレージオブジェクトと必要なコンピュートリソースを内蔵しているため、データアクセスは高速で、アナリティクスを効率的かつ高速に実行できます。これはレガシーアーキテクチャとは大きく異なります。レガシーアーキテクチャでは、データは外部データバケットに保存され、分析の際には別のストレージ-コンピュートレイヤーにコピーする必要がありました。これはインサイトを得る速度と全体的なパフォーマンスの両方に影響しました。
従来型データレイクアーキテクチャ
従来のデータレイクは必然的にオンプレミスにデプロイされましたが、Hadoopなどの第1波のクラウドデータレイクさえもオンプレミス環境向けに設計されていました。これらの従来型アーキテクチャは、クラウドが登場するずっと前に実行可能なスタンドアロンオプションとして作成され、クラウドの完全な価値を実現できませんでした。これらの第1世代のデータレイクには、容量計画、リソース割り当て、パフォーマンス最適化などのタスクを常に調整する管理者が必要でした。
それに対処するため、一部の企業はクラウドベースのオブジェクトストアに寄せ集めのデータレイクを作成し始めました。このようなデータレイクにはSQL抽象レイヤーを介してアクセスできましたが、そのためにはカスタム統合と常時管理が必要でした。クラウドオブジェクトストアはセキュリティおよびハードウェア管理のオーバーヘッドを排除しますが、そのアドホックなアーキテクチャは一般に低速で、多数の手動パフォーマンスチューニングを必要とします。その結果、十分な分析パフォーマンスが得られません。現在のより汎用的なレイクは、多くの場合、データウェアハウスまたは外部オブジェクトストアに保存されているデータに対するクエリパフォーマンスを最大化したクラウドベースの分析レイヤーです。これにより、組織の広範なデータセットとデータフォーマットをより深くより速く掘り下げることができる、より効率的な分析が可能になります。
クラウド分析レイヤーの特殊テクノロジー(マテリアライズドビュー)などにより、組織はクラウドデータウェアハウスを使用してすべてのデータを保存し、データレイクに直接取り込まれるデータに匹敵するレベルの外部テーブルパフォーマンスを享受できます。この汎用アーキテクチャのおかげで、組織は、データが複数の場所から到着する場合でも、シームレスで高パフォーマンスの分析とガバナンスを実現できます。データを事前に定義されたテーブルのセットに変換する必要性を排除することで、ユーザーは未加工データタイプをスキーマオンリード方式ですぐに分析できるようになります。構造化データウェアハウスとは異なり、データ変換はデータが取り込まれるとデータレイク内で自動的に行われます。
最新のクラウドデータレイクアーキテクチャは、組織がワークロードの分離を維持するのにも役立ちます。ユーザーの同時実行は大量のリソースを消費します。アドホックなデータ探索アクティビティによって重要な分析がスローダウンするのを防ぐため、データレイクはワークロードを分離し、リソースを最も重要なジョブに割り当てる必要があります。多くの組織は定期的にコンピュートリソースの消費量が爆発的に増えるため(四半期末の会計ジョブなど)、ワークロードの分離を可能にするデータレイクアーキテクチャを用意しておくことが重要です。
クラウドに最適化されたアーキテクチャにより、データレイクが簡素化されます。パフォーマンス、柔軟性、制御性を最適化するため、最新のクラウドデータレイクは以下の特徴を備えている必要があります。
マルチクラスター型共有データアーキテクチャ
パフォーマンスを低下させることなくユーザーを追加できる能力
コンピュートリソースとストレージリソースの独立した拡張
パフォーマンスに影響を与えることなく、データを同時にロードおよびクエリするためのツール
オブジェクトストレージ環境の基礎である堅牢なメタデータサービス
Snowflakeデータクラウドは、さまざまな固有ビジネス要件を満たすことができるクラウド型アーキテクチャを備えており、お客様のデータレイク戦略を最も柔軟にサポートできるソリューションです。デザインパターンを上手く組み合わせることで、データの潜在能力をフルに引き出すことができます。Snowflakeを利用すれば、以下のことができます。
Snowflakeをデータレイクとして活用し、最も重要なデータワークロードを処理できるシングルプラットフォームでデータインフラストラクチャ環境を統合する
データユーザーがパフォーマンスに影響を与えることなく、データレイクに対してほぼ無制限の数の同時実行クエリを実行できるようにする
拡張可能でパフォーマンスの高い統合データパイプラインを構築して実行し、ほぼすべてのデータを処理してから元のデータレイクにデータを簡単にアンロードする
データが既存のクラウドデータレイクにとどまっているときでさえもデータガバナンスとセキュリティを確保する
詳細については、「Cloud Data Lake for Dummies(クラウドデータレイク入門)」をダウンロードしてください。