製品 & テクノロジー

Snowflake の単一プラットフォームは、より多くのデータ タイプをサポートしながら、パフォーマンスを向上させ、ミッション クリティカル性と分析を向上させます

Snowflake の単一プラットフォームは、より多くのデータ タイプをサポートしながら、パフォーマンスを向上させ、ミッション クリティカル性と分析を向上させます

注:本記事は(2023年6月27日)に公開された(Snowflake’s Single Platform Improves Performance, Advances Mission Criticality, and Analytics While Supporting More Data Types)を翻訳して公開したものです。この記事の翻訳には機械翻訳を使用しています。

世界はデータによって加速される目覚ましい変革を迎えています。テクノロジーの限界により、組織はさまざまなワークロード、言語、ツール、形式をサポートするためにデータ インフラストラクチャ全体にサイロを蓄積してきました。これらのサイロ化は、運用オーバーヘッド、セキュリティの脆弱性、総保有コストの増加、不完全な洞察、アジリティの低下という形で大きな影響を与える可能性があります。 

ここで、Snowflake の単一の統合プラットフォームが役に立ちます。サイロを打破し、アーキテクチャを簡素化するのに役立ちます。Summit 2023で、当社は、パフォーマンスの向上、可視性の向上と支出の制御、ガバナンスの強化、より高度な分析、ビジネス継続性の機能の拡張、Apache Iceberg に関するイノベーションなどを通じて、顧客のサイロの打破を支援するプラットフォームの一連の新たな進歩を発表しました。大規模言語モデル (LLM) を使用して非構造化データからより多くの価値を引き出す機能と、ML を活用した機能をより多くのアナリストに拡張する機能です。このブログ投稿では、これらの新機能について概要を説明します。

顧客のパフォーマンスに対する価格を継続的に改善する

Snowflake の最も重要な 価値観 は「お客様を第一に考える」ことです。 当社は、パフォーマンスと効率を向上させるために、ほぼすべての製品リリースで継続的なイノベーションを提供することに重点を置いており、これらのプラットフォームの改善点の多くは、顧客側でのアクションや労力を必要とせずに自動的に展開されます。 

これが、お客様が長期にわたって体験する Snowflake パフォーマンスの向上を測定するための集計インデックスである、新しい Snowflake Performance Index (SPI) を導入する理由です。2022 年 8 月 25 日に SPI の追跡を開始してから 2023 年 4 月 30 日までの間に、Snowflake での顧客の安定したワークロードのクエリ所要時間は 15% 改善されました。* これは、Snowflake が顧客がプラットホームからより多くの価値を得るのを支援する多くの 方法 の 1 つです。

検索最適化 (SO) サービスは、干し草の山から針をすばやく見つけて、大きなテーブル上で少数の行を返すことにより、クエリのパフォーマンスを高速化します。VARIANT、ARRAY、OBJECT、GEOGRAPHY など、より多くのデータ型に対応するために SO をオープンしました。また、一般提供でより多くのユースケースをサポートするためにサービスを拡張しています。たとえば、テキスト列の部分文字列検索の高速化、クエリ アクセラレーション サービスなどの他のパフォーマンス機能との連携などです。 

レイテンシーの低い TOP-K 分析により、顧客はランク別の大規模な結果セットから最も関連性の高い回答のみを取得できます。現在一般提供されている追加のプルーニング機能は、データ セット全体をスキャンする必要性を軽減し、より高速な検索を可能にします。

お客様がコストのかかるクエリの構造をより簡単に分析し、パフォーマンスの問題を引き起こす演算子を特定できるようにするために、クエリ プロファイルへのプログラムによるアクセスを間もなく GA で利用できるようにする予定です。 

当社が継続的にプラットフォームに対して行っている 継続的なパフォーマンスの向上 について詳しくご覧ください。 

Snowflake の支出をさらに可視化し、制御できるようになります

ユーザーが既存のリソースを最大限に活用し、コストの予測可能性を高めながら、Snowflake の支出をより適切に把握して制御できるようにするための 3 つの新機能を発表しました。

まず、新しいウェアハウス使用率機能 (プライベート プレビュー中) は、容量の見積もりを改善し、ウェアハウスの適切なサイズを設定し、ウェアハウス支出を最適化するのに役立つ単一の指標をお客様に提供します。 

Snowflake の新しいクエリごとのコスト アトリビューション機能 (近日公開されるプライベート プレビュー) により、ユーザーはウェアハウス支出をさまざまなクエリに帰属させることができます。たとえば、一元化されたチームが請求が異なる複数の部門 (人事、財務、IT など) で Snowflake を実行している場合、その中央チームは各部門が使用している Snowflake クレジット数を確認できるようになります。これは、集中部門がさまざまなチームに対して、Snowflake で実際に使用したクレジット量をチャージバックする必要があるチャージバック シナリオに役立ちます。

また、ユーザーがより詳細に制御できるよう、Budgets が間もなくパブリック プレビューになることも発表しました。Budgetsは、Snowflake オブジェクトのグループのコンピューティング コストに対する特定の時間間隔の支出制限を定義します。Budgetsは、自動クラスタリング、マテリアライズド ビュー、検索の最適化などの使用状況を含む、ウェアハウスとサーバーレスの使用状況を監視するのに役立ちます。使用制限を超過すると予測される場合は、毎日リマインダー電子メールが送信されます。

強化されたネイティブ データ ガバナンス、新しい Snowflake UI、増大するコンプライアンス フットプリント、最新のクロスクラウド ビジネス継続性によりミッション クリティカル性をサポート

Snowflake では、当社のプラットフォームにデータを預けているお客様にクラス最高のネイティブ データ ガバナンス機能を提供することに尽力しています。これらの顧客は世界中の多くの国にまたがっているため、英国、オーストラリア、カナダを拠点とするデータをサポートするために分類機能を拡張しました (プライベート プレビュー中)。 

また、強化されたユーザー エクスペリエンスを活用することで、お客様は機密性の高い個人を特定できる (PII) データをより簡単に管理できるようになりました。分類 UI (プライベート プレビュー) は、目的のスキーマでテーブルを分類してタグ付けするための Snowsight の直感的なワークフローを顧客に提供します。また、データ ガバナンス UI (近日公開) は、Snowsight でタグ付けされ保護された資産の概要を一目で確認できるようにし、アクションを実行するためのワークフローを備えています。 

データの鮮度、量、精度、一般的な統計に関するすぐに使用できるメトリクスと、独自のカスタム メトリクスを定義する機能により、ネイティブ データ品質モニタリング (近日公開予定のプライベート プレビュー) により、データ ガバナンス機能をさらに拡張しています。Snowflake は、パートナーがさらに活用および拡張できるデータ品質監視のためのこれらの構成要素を提供します。 

ネイティブ データ ガバナンスの革新とは別に、当社はコンプライアンス フットプリントの拡大に​​も常に取り組んでいます。最も注目に値するのは、Snowflake が最近 6 月初めに 官公庁・公的機関および教育データクラウド 業界向けサービスを開始し、AWS GovCloud で StateRAMP High の認可を取得したことです。連邦、州、地方機関がセキュリティとコンプライアンスの基準を満たすのを支援するために、Snowflake は刑事司法情報サービス (CJIS) などの規制対象ワークロードをサポートするようになりました。 

Snowgrid は、独自に差別化されたクロスクラウド テクノロジー レイヤーであり、地域やクラウド全体でビジネスのエコシステムを相互接続し、世界規模での運用を可能にします。Snowgrid は、Snowflake のクロスクラウド ビジネス継続性機能を強化しており、アカウント レプリケーションが一般提供されたことを発表できることを嬉しく思います。この機能は、レプリケーションをデータベースを超えてアカウントのメタデータと統合に拡張し、ビジネス継続性をターンキーにします。Snowflake ユーザーは、クライアントのリダイレクトと組み合わせることで、事実上あらゆる規模で数秒でアカウントとクライアント接続を回復できるようになりました。 

クロスクラウドのビジネス継続性のためのユーザー エクスペリエンスを簡素化および合理化するために、顧客は直感的な UI を通じてアカウント レプリケーションをセットアップ、構成、監視できます (パブリック プレビューは近日公開予定)。この UI を使用すると、レプリケーションのソース、宛先、複製するオブジェクト、およびタイミングを管理できます。

Stages、Snowpipe、COPY (取り込み)、およびディレクトリ テーブルのレプリケーションがまもなくパブリック プレビューになるため、顧客は ETL パイプライン全体 (パブリック プレビューは近日公開) をレプリケートして、リージョンで Snowflake が利用できなくなることを防ぐことができるようになります。つまり、顧客はパイプラインをフェイルオーバーでき、Snowflake はべき等な負荷を保証します。 

Snowflake ユーザーは、GA でストリームとタスクをレプリケートできるようになりました。これらは、最新のデータ パイプラインを構築するために一緒に使用されることがよくあります。当社では、数千の Snowflake 顧客が強力なデータ変換パイプラインを毎日開発しています。ストリームとタスクをレプリケートする機能により、データ パイプラインはセカンダリ Snowflake アカウントでもシームレスに動作するようになります。 

GEOMETRY の新しいサポート、新しい金融サービス機能、および高速 SQL 関数による高度な分析

Snowflake では、顧客の利便性、柔軟性、効率性を重視しており、これを分析の進歩を通じて示しています。 

当社は、地理空間データの主要なプラットフォームになるための取り組みの一環として、多額の投資を行ってきました。位置データが球面 (Geography)、平面 (Geometry)、または無効な形状形式で保存されているかどうかに関係なく、顧客はこれらすべてのタイプのベクトル地理空間データを GA で処理できるようになりました。また、あるマッピング システムから別のマッピング システムへの再投影を可能にする、ジオメトリ オブジェクトの空間参照システム間の変換のパブリック プレビューも発表します。 

さらに、新しい関数を通じてコーディングの効率をさらに高め、時間を節約し、精度を向上させるために、SQL 機能を継続的に改善しています。SELECT*、MIN_BY / MAX_BY、GROUP BY ALL、Banker's Rounding など、いくつかの SQL の改善点 (GA) を導入しました。特に、Banker's Rounding を含めることで財務分析中のエラーを軽減し、銀行家や金融専門家の特定の要件に応えます。

Apache Iceberg サポートが更新され、よりシンプルになり、パフォーマンスが向上しました。

Apache Iceberg は、 オープン テーブル フォーマットの業界標準として人気が高まり続けています。Iceberg は、多様な採用者、貢献者、商用製品からなる主要なエコシステムにより、ストレージのロックインを防止し、異なるシステム間でテーブルを移動またはコピーする必要を排除します。これにより、多くの場合、データ スタック全体のコンピューティングとストレージコストが削減されます。

Summit 2023 で、Iceberg の外部テーブルとネイティブ Iceberg テーブルを 1 つのテーブル タイプ、つまり Iceberg テーブル (プライベート プレビューは近日公開予定) に統合することを発表しました。お客様は、単一の Iceberg テーブル タイプのシンプルさを利用できるようになりましたが、カタログ実装を指定するオプションが提供され、パフォーマンスのトレードオフが大幅に軽減されました。マネージド Iceberg テーブルでは、Snowflake からの完全な読み取り/書き込みが可能で、外部エンジンが簡単に読み取ることができるカタログとして Snowflake を使用します。アンマネージド Iceberg テーブルは、Snowflake を接続して、外部カタログから Iceberg テーブルを読み取ります。また、アンマネージドの Iceberg テーブルをマネージド テーブルに変換する簡単で低コストの方法も追加しており、顧客がテーブル全体を書き換えることなく簡単にオンボードできるようになります。

クエリのパフォーマンスは Parquet の効率に依存しますが、私たちのテストでは、管理されていない Iceberg テーブルのパフォーマンスが外部テーブルの 2 倍以上優れていることが示されています。また、マネージド Iceberg テーブルのパフォーマンスは、Snowflake のテーブル形式を使用した内部テーブルに非常に近いです。

オンプレミスに保存されたデータの統合

企業がデータをクラウドに移行する傾向が続く中、多くの組織が、さまざまな理由からデータがオンプレミスまたはプライベート クラウド環境に保存されたままになっている状況に陥っています。一部のデータはパブリック クラウドへの移行に適していない場合や、現在移行プロセス中である場合がありますが、これらの組織は、保管場所に関係なく、すべてのデータを 1 か所からシームレスに管理することを目指しています。異種ソースからのデータを統合してアクセスすることは、全体的なデータの洞察とガバナンスにとって重要です。

間もなく一般公開されるオンプレミス ストレージ用の外部テーブルとステージは、このギャップを埋めるのに役立ちます。お客様は、Snowflake を使用して、Snowflake プラットフォームから使いやすさ、弾力性、統合ガバナンス、復元力、接続性を実現しながら、s3 互換ストレージ デバイス内のデータにアクセスできます。ユースケースには、外部テーブルを使用したデータ レイクでの分析の実行、クラウド内のテーブルへのオンプレミスのファイルの簡素化された取り込み、さらには外部に保存されたファイルを処理するための Snowpark Python、Java、または Scala の使用などが含まれます。サポートされているストレージ プロバイダーのリストやパブリック テスト スイートなどの詳細については、 製品ドキュメントを参照してください。

Document AI を備えた組み込み LLM の導入

ほぼすべての企業がドキュメント形式の非構造化データを持っていますが、それらのファイルから貴重な分析的洞察を得る手段は、機械学習 (ML) の専門家に限定されているか、他のすべてのデータから隔離されています。非構造化データのネイティブ サポートに基づいて構築された Snowflake の組み込み Document AI (プライベート プレビュー中) により、組織は自然言語を使用してドキュメントを理解し、価値を抽出することが容易になります。

Document AI は、専用に構築されたマルチモーダル LLM を活用します。このモデルを Snowflake プラットフォーム内にネイティブに統合することで、組織は Snowflake に安全に保存されたドキュメントから請求額や契約条件などのコンテンツを簡単に抽出し、ビジュアル インターフェイスと自然言語を使用して結果を微調整できます。データ エンジニアや開発者は、ストリームやタスクを使用したパイプラインやアプリケーションなど、組み込みモデルや微調整されたモデルをプログラムで呼び出すことで推論を実行することもできます。

SQL 経由で ML にアクセスできるようにする

データの量が増え続けるにつれて、アナリストはデータからより正確な洞察を得ることができます。具体的には、ML アルゴリズムはそのプロセスを加速できますが、プログラミングの知識のギャップや複雑なコンピューティング インフラストラクチャの要件により、アナリストが ML を採用できないことがよくあります。

これが、ML を活用した機能を備えた単一プラットフォームを (パブリック プレビュー段階で) 改善している理由です。と ML を活用した関数により、アナリストは使い慣れた SQL を通じて利用できる ML 関数を利用して洞察を明らかにし、予測を生成できるようになりました。これにより、アナリストは、これまで ML スキルセットを持つ人のみがアクセスできた機能を利用できるようになります。現在パブリック プレビューで利用できる機能は次のとおりです。

  • 予測:季節性や欠損値などの自動処理により、より信頼性の高い時系列予測を構築します。
  • 異常検出:外れ値を特定し、さらなるアクションのためのアラートをトリガーします。
  • 貢献エクスプローラー:2 つの異なるユーザー定義の時間間隔にわたる特定のメトリックの変化に寄与するディメンションとその値を迅速に特定します。

ML は、日々のビジネス上の意思決定の速度と質を向上させるために、より広範囲に導入できるようになりました。この機能は、Snowflake を通じて直接利用できる使い慣れた SQL 関数、または Sigma Computing などの BI/分析ツールとの統合を通じて、ML フレームワークの複雑さを解消します。

オンデマンドでさらに詳しく

これらのイノベーションの詳細については、Summit 2023 ページをご覧ください。

*2022 年 8 月 25 日から 2023 年 4 月 30 日までの Snowflake の内部データに基づいています。SPI を計算するために、提示された期間にわたって処理されたクエリとデータの量の両方が安定しており、同等である顧客のワークロードのグループを特定します。クエリ時間の短縮は、ハードウェアとソフトウェアの改善、顧客の最適化などの要因の組み合わせによってもたらされました。

Share Article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

30日間の無料トライアルを開始する

Snowflakeの30日間無料トライアルで、他のソリューションに内在する複雑さ、コスト、制約の課題を解決するデータクラウドを体験できます。