Snowflake MLが拡張されたMLOps機能をサポートして特徴量とモデルの管理を合理化

機械学習（ML）モデルの本番環境への導入は、基礎データでスケーリングするのが困難な断片化されたMLOpsプロセスによって妨げられることがよくあります。多くの企業は、さまざまなMLOpsツールを複雑に組み合わせてエンドツーエンドのMLパイプラインを構築しています。特徴量とモデルの環境を別々に設定して管理しなければならないという摩擦により、運用が複雑化し、維持コストと使用が困難になる場合があります。

Snowflake MLは、開発者が単一のプラットフォーム上で大規模なMLデータ、特徴量、モデルを安全に構築、展開、管理できるようにする統合機能です。Snowflake Summit 2024では、Ecolab、Classy、Purpose Financialなどのお客様が、Snowflake MLによってすでにデータサイエンティストとMLエンジニアがインサイトを得るまでの時間を短縮している方法を紹介しました。

このエクスペリエンスをさらに強化するために、パワフルで新しい統合MLOps機能スイートの提供を開始しました。

コラボレーションモデル管理：Snowflakeモデルレジストリは、スケーラブルなモデル管理と推論のために一般的に利用可能です。
継続的に更新されるML機能：Snowflake特徴量ストアは、トレーニングと推論の下流のMLパイプラインで使用できる、一貫性のある新しいML特徴量の統合管理と提供のためのパブリックプレビュー中です。
管理されたMLのトレーサビリティ：MLリネージ（プライベートプレビュー中）は、開発と運用全体にわたってオブジェクトとアーチファクトの使用状況を可視化します。

Snowflake MLのこれらの新機能により、開発者は一元化され統制されたMLOpsを活用し、特徴量とモデルをより迅速に管理できます。チームは、直感的なPython APIを使用して、Snowflakeの統一されたUI、または任意のノートブックやIDEからこれらのオブジェクトを操作、管理できます。

SnowflakeモデルレジストリによるコラボレーションMLモデルとカスタムLLM管理

MLパイプラインでは、モデルオブジェクトはML開発と実稼働の間の中心的な成果物であり、受け渡しポイントです。多くのお客様がすでにSnowflakeモデルレジストリを使用してMLモデルを運用しており、Lessmore社もその1つです。Lessmore社は、SnowflakeモデルレジストリとSnowflakeストリームを使用して、SnowflakeでのエンドツーエンドのMLワークフローを合理化しているモバイルゲーム企業です。

「Snowflakeモデルレジストリを活用することで、顧客生涯価値予測のモデル開発と実験のプロセスが変革されました。このシフトにより、イノベーションサイクルが高速化されただけでなく、コストが10分の1に削減され、効率性も向上しました」 - Lessmore、データサイエンス責任者、Moritz Schöne氏

生産におけるモデルの信頼性は、統制のとれた適切に管理されたモデル管理が前提となります。Snowflakeモデルレジストリ（一般提供）は、すべてのモデルとそれに関連するアーティファクトとメタデータを管理するための一元化されたリポジトリです。モデルレジストリにより、お客様はSnowflakeウェアハウスに展開されたモデルを安全かつ柔軟に管理し、予測を実行できます。Snowflakeコンテナサービスに展開されたモデルは近日中にサポートされる予定です。モデルレジストリは、Snowpark MLモデリングによるSnowflake、クラウドプロバイダーのMLプラットフォーム、Dataikuなどの外部プラットフォーム、HuggingFaceなどのオープンソースレポジトリなど、さまざまなプラットフォームでトレーニング済みまたは利用可能なモデルをサポートしています。すべてのカスタムモデルに統一されたエクスペリエンスを提供するために、Snowflake Cortexファインチューニングを使用して微調整されたLLMのサポートがまもなく始まります。モデルレジストリ用のSnowsight UIがパブリックプレビュー中です。

モデルは、きめ細かいロールベースのアクセス制御（RBAC）を提供するファーストクラスのスキーマレベルのSnowflakeオブジェクトです。モデルレジストリでは、独自のバージョン管理スキーム、モデルライフサイクルステージ（エイリアスを使用）、カスタムモデルタイプを定義できます。この柔軟性により、モデルレジストリはSnowflake上でソリューション、アプリケーション、サービスを構築するすべての人のための基本的なコンポーネントを提供します。

モデルレジストリには、PythonとSQLのAPIを介してアクセスし、CPUまたはGPUで推論できます。Snowflakeモデルレジストリは、SnowsightのUIから、SQLを使用して直接、またはSnowpark MLライブラリからPython APIを通じて使用できます。Snowpark MLライブラリは、Snowflake Notebook（パブリックプレビュー中）にプリインストールされています。また、任意のIDEにダウンロードすることもできます。

Snowflake特徴量ストアによるすべてのML特徴量のシングル・ソース・オブ・トゥルース（信頼できる唯一の情報源）

特徴量エンジニアリングは、冗長性やトレーニングパイプラインとサービスパイプラインの一貫性が損なわれるため、大規模なものは困難です。Snowflake特徴量ストア（パブリックプレビュー中）は、ML特徴量の定義、管理、保存、発見に使用される統合ソリューションです。これにより、Snowflakeやdbtなどの外部ツールで作成した特徴量にまたがるパイプラインを統合し、モデルのトレーニングや推論のための最新のシングル・ソース・オブ・トゥルース（信頼できる唯一の情報源）を構築できます。チームは、Snowsightの新しいUI（プライベートプレビュー中）から特徴量ストアのオブジェクトとそのメタデータを視覚的に操作できます。コード指向のアプローチでは、Snowpark MLから公開されているPython APIをSnowflake Notebookまたは任意のIDEから使用して特徴量を作成、管理、取得できます。

特徴量ストアは、バッチデータソースとストリーミングデータソースからの自動増分更新をサポートしているため、特徴量パイプラインは一度だけ定義され、新しいデータに対して継続的に更新されます。特徴量ストアは、Snowflakeの新しい高性能でスケーラブルなASOF JOIN機能を使用して、バックフィルとポイントインタイムの正しいルックアップをサポートします。データサイエンティストは、Snowpark MLで使用するトレーニングデータセットを作成したり、特徴量を一括して取得して外部トレーニングに利用することができます。このすべてが、SnowflakeのフルRBACによって保護され、管理されます。

Snowflake HorizonによるMLモデルと特徴量の系統の管理とトレース

MLの開発プロセスは反復的で、大量の依存関係によって生産パイプラインが複雑になる可能性があるため、MLのライフサイクル全体を通じてオブジェクトとアーチファクトの使用状況を追跡することが重要です。現在プライベートプレビュー中のSnowflakeのMLリネージは、データからインサイトまでの特徴量、データセット、モデルのエンドツーエンドのリネージをトレースし、シームレスな再現性、コンプライアンス、可観測性を実現することで、Snowflake Horizonのガバナンス機能をMLアーチファクトにまで拡張します。エンドツーエンドの可視性により、チームはより良いMLソリューションを開発し、モデルの問題を迅速にデバッグし、MLワークフローのトレーサビリティを管理して監査とコンプライアンスのニーズに対処できます。アクセスを簡略化するために、MLリネージ用のグラフィカルUIがSnowsightで近日中に利用可能になる予定です。

詳しくはこちら

Snowflake MLは、単一のプラットフォームでスケーラブルなMLワークフローをより簡単に運用できるようにします。MLOpsに関する発表は、プライベートプレビュー中の新しいコード実行環境であるContainer Runtimeで使用できるSnowflake Notebookの機能強化によって補完されます。コンテナランタイム搭載のSnowflake Notebookは、Snowflakeからのデータロードの最適化、すぐに使える分散型トレーニングのサポート、自動系統キャプチャ、モデルレジストリ統合を提供します。SnowflakeのエンドツーエンドML機能の詳細については、以下のリソースを参照してください。