データウェアハウスアーキテクチャは、モダンデータウェアハウスの設計と構築の基盤です。テクノロジーが進化し、データドリブンな経済の需要が高まる中で、マルチクラウドアーキテクチャはビジネスの拡大に従ってデータとワークロードを地理的に、またはAmazonやMicrosoftなど主要クラウドベンダー間で移動させる移植性を実現します。
データウェアハウスアーキテクチャの種類
データウェアハウスの構築には3つのアプローチがあります。
1層アーキテクチャは、データの重複排除によって保存するデータ量を最小限に抑えます。
2層アーキテクチャは、物理データソースとデータウェアハウスを分離することで、拡張を不可能にしたり、多数のエンドユーザーをサポートしたりします。
3層アーキテクチャ:
最下層はデータウェアハウスサーバーのデータベース
中間層はエンドユーザー向けデータベースの抽象ビューを提供するオンライン分析処理(OLAP)サーバー
最上層はデータの抽出に使用するツールとAPIで構成されるフロントエンドクライアントレイヤー
データウェアハウスアーキテクチャの構成要素
1.データウェアハウスデータベース
データウェアハウスの必須要素であるデータベースは、すべてのビジネスデータを保存し、アクセスを提供します。クラウドベースデータベースサービスにはAmazon RedshiftやAzure SQLがあります。
2.抽出、変換、ロード(ETL)ツール
従来のETLツールは、データをさまざまなソースから抽出し、それを処理しやすい形式に変換して、データウェアハウスにロードします。
3.メタデータ
メタデータはデータのフレームワークと記述情報を提供し、データの構築、保存、処理、使用を可能にします。
4.データウェアハウスアクセスツール
アクセスツールにより、ユーザーはアクション可能な情報をウェアハウスデータから発見できます。これらのウェアハウスツールには、クエリとレポートのツール、アプリケーション開発ツール、データマイニングツール、OLAPツールなどが含まれます。
データウェアハウスアーキテクチャの基本的な特徴
従来のアーキテクチャはオンプレミス環境向けに設計および展開されていましたが、モダンデータウェアハウスのソリューションでは、クラウドのメリットを十分に活用する必要があります。クラウドに最適化されたデータウェアハウスアーキテクチャは、次のような属性を備えています。
全データの一元化されたストレージ
コンピューティングリソースとストレージリソースの独立スケーリング
リソース競合のない、ほぼ無制限の同時実行性
パフォーマンスに影響を与えることなく、データのロードとクエリを同時実行可能
複数のリージョン間およびクラウド間でデータを複製することで、事業継続性を強化し、拡張を簡素化
データ共有にAPIや煩雑なETLプロシージャの設定が不要
システム全体に適用される堅牢なメタデータサービス
データストレージがユーザーに対して透過的に自動で拡張および縮小する、サービスとしてのストレージのメリットを活用可能
SNOWFLAKEのアーキテクチャ
Snowflakeは、特許を取得したマルチクラスターの共有データアーキテクチャを基盤に構築されています。クラウド向けに設計されており、データウェアハウス、データレイク、データアナリティクスなど多数のユースケースに大変革をもたらします。
Snowflakeでは、データウェアハウス内のすべてのコンピュートノードからアクセス可能な永続データのための一元化されたデータリポジトリを使用しています。また、Snowflakeはクラスター内の各ノードがデータセット全体の一部をローカルに保存する超並列処理(MPP)コンピュートクラスターを使用してクエリを処理します。このアプローチは、シェアードディスクアーキテクチャによるシンプルなデータ管理と、シェアードナッシングアーキテクチャによるパフォーマンスおよびスケールアウトのメリットを兼ね備えています。
SnowflakeはETLとELTの両方に簡単に対応できますが、セキュアなデータ共有機能とオンデマンドの高い伸縮性を備えているため、リソースや周波数の制約を受けやすい従来の抽出、変換、ロードプロセスは不要になります。