オープンソースのファイルフォーマットとテーブルフォーマットは、単一のデータコピーで多くのテクノロジーを安全に運用できる相互運用性を備えていることから、データ業界に大きな関心を集めています。相互運用性が向上すると、多数のツールや処理エンジンの並列使用に伴う複雑さやコストが軽減されるだけでなく、ベンダーロックインに伴う潜在的なリスクも軽減されます。

オープンファイルフォーマットやテーブルフォーマットを迅速に採用しているにもかかわらず、エンジンとカタログの間には相互依存する多くの制限があり、その結果、Icebergのオープン標準の価値が低下しています。これにより、データアーキテクトとデータエンジニアは、これらの制約に対処し、複雑さとロックインの間で難しいトレードオフを行うという難しいタスクに直面することになります。相互運用性を高めるために、Apache IcebergコミュニティはIcebergプロジェクトでオープン標準RESTプロトコルを開発しました。オープンAPI仕様は相互運用性を実現するための大きな一歩であり、このエコシステムはベンダーニュートラルなストレージを可能にするオープンソースカタログ実装のメリットをさらに享受できるでしょう。本日、SnowflakeはPolaris Catalogを発表します。これは、エンタープライズセキュリティとApache Icebergの完全な相互運用性に加え、Amazon Web Services(AWS)、Confluent、Dremio、Google Cloud、Microsoft Azure、Salesforceなどとの相互運用性により、エンタープライズとIcebergコミュニティに新たなレベルのデータ選択肢、柔軟性、制御を提供します。Polaris Catalogは、前述の課題に対処するためにIcebergコミュニティによって作成された標準を基盤としています。

  • 異なるエンジンやカタログのデータを移動してコピーする代わりに、1つの場所から1つのデータコピーに対して多くのエンジンを相互運用できます。
  • Snowflakeマネージドインフラストラクチャーまたはお好みのインフラストラクチャーでホストできます。

Polaris Catalogは今後90日間でオープンソース化され、近日中にSnowflakeインフラストラクチャーでパブリックプレビューが開始されます。このブログ記事の残りの部分では、機能とホスティングオプションについて詳しく説明します。

エンジン間の読み取りと書き込みの相互運用性

多くの企業は、さまざまな処理エンジンを使用して特定のワークロードを実行するか、将来的に処理エンジンを簡単に追加または交換できる柔軟性を求めています。いずれの場合も、単一のデータコピーで複数のエンジンを安全に使用し、データの移動や複数のコピーの維持に伴うストレージコストとコンピューティングコストを最小限に抑えたいと考えています。

カタログは、マルチエンジンアーキテクチャにおいて重要な役割を果たします。アトミックトランザクションをサポートすることで テーブルに対する操作の信頼性を高めますつまり、データエンジニアとそのパイプラインはテーブルを同時に変更することができ、これらのテーブルに対するクエリは正確な結果を生み出します。これを実現するために、異なるエンジンからのIcebergテーブルの読み取りおよび書き込み操作はすべてカタログを通じてルーティングされます。

すべてのエンジンに対応する標準化されたカタログプロトコルにより、マルチエンジンの相互運用性が実現します。幸い、Apache IcebergコミュニティはRESTプロトコルのオープンソース仕様を作成しました。オープンソースと商用の両方のエンジンとカタログで、このREST API仕様のサポートを追加するケースが増えています。

Polaris Catalogは、IcebergのオープンなREST APIを実装し、統合できるエンジン数を最大化します。現在、これにはApache Doris、Apache Flink、Apache Spark、PyIceberg、StarRocks、Trinoなどが含まれており、将来的にはDlemioなどの商用オプションも追加される予定です。SnowflakeはIcebergのREST API(近日中にパブリックプレビュー開始)とのカタログ統合のサポートを拡大するため、Snowflakeを使用して、Polaris CatalogでのIcebergテーブルへの読み取りと書き込みの両方を行うことができます。

あらゆる場所で実行、ロックインなし

SnowflakeのAIデータクラウドインフラストラクチャー(近日中にパブリックプレビュー開始)でホストされるこのオープンソースのPolaris Catalogを実行し始めることも、DockerやKubernetesなどのコンテナーを使用して独自のインフラストラクチャー(近日中に公開予定)でセルフホストすることもできます。Polaris Catalogの展開方法にかかわらず、ロックインはありません。基盤となるインフラストラクチャを自由に入れ替えることができます。

Polarisカタログ統合によりSnowflake Horizonのガバナンスを拡張

Snowflake HorizonとPolaris Catalogの統合が設定されると、列マスキングポリシー、行アクセスポリシー、オブジェクトのタグ付けと共有などのSnowflake Horizonのガバナンス機能と発見機能がPolaris Catalog上で機能します。そのため、Icebergテーブルの作成元がSnowflakeであっても、FlinkやSparkなどの他のエンジンであっても、Snowflake Horizonの機能をネイティブのSnowflakeオブジェクトであるかのようにこれらのテーブルに拡張できます。

将来を見据えて

Polaris Catalogは、Apache Icebergコミュニティの標準に基づいて構築することにより、Snowflakeのお客様だけでなく、より広範なデータエコシステムに完全な相互運用性を備えたストレージを提供することを意図しています。グローバルなクロスクラウドプラットフォームを運営してきた経験と、急速に成長する驚異的なIcebergコミュニティを組み合わせることで、私たちは共にPolaris Catalogの改善に取り組んでいきます。Polaris Catalogについて詳しく知りたい方は、AIデータクラウドサミットに参加するか、このウェビナーに登録してチームの詳細をご確認ください。Polaris Catalogのコードがリリースされるタイミングをいち早く確認したい場合は、このGitHubレポジトリを見て通知に登録してください。

将来の見通しに関する記述について 

この記事には、将来の製品の提供に関する記述が含まれており、いかなる製品の提供を約束するものではありません。実際の結果とサービスは異なる場合があります。また、既知または未知のリスクや不確実性に左右される可能性があります。詳細については、最新の第10四半期を参照してください。