製品 & テクノロジー

AIデータクラウドでのAIモデルの安全かつ確実な共有と収益化

生成AIモデルの台頭により、企業はAIと大規模言語モデル(LLM)をビジネス戦略に組み込む必要に迫られています。最終的に、これらのモデルは、企業のデータとIPからより大きな価値を引き出し、組織全体のより幅広いオーディエンスがアクセスできるようにする新しい機会を開きます。

生成AIモデルをうまく活用するためのカギの1つは、データ共有機能です。LLMのファインチューニングに使用できる貴重なデータを持つ企業は、元のデータソースへのアクセスを許可することなく、LLMを収益化してファインチューニングに使用できるようにしたいと考えています。また、すべての使用が自社に適切に還元されることも望んでいます。 

残念ながら、現在利用可能なソリューションの多くは、企業が安全かつ確実にデータを共有するためのツールを提供していません。

  • 組織の貴重なデータが常にその組織によって管理され、他の関係者が利用できないようにする必要性。不適切または悪意のある使用につながる可能性がある

  • 企業内で使用されているサードパーティモデルの安全なサンドボックス化

  • データとモデルへのアクセスを注意深く監視

Snowflakeでは、これらの課題に真正面から取り組み、開発者がエンタープライズデータを使用して信頼性の高いAIをより簡単に提供できるようにしています。

Diagram showing the span of Snowflake Collaboration capabilities from within an organization to between organizations
AIデータクラウドでのコラボレーションにより、企業は複数のクラウドにまたがってデータ、アプリ、AIプロダクトを発見、共有、収益化できます。

最近のBUILD 2024 デベロッパーカンファレンスでは、ファインチューニングされたLLMの共有、LLMをトレーニングするためのデータセットの共有、従来のAI/MLモデルの共有をAIデータクラウドの内外で安全かつ確実に実現するのに役立つ、3つの機能を取り上げました。前回のブログ記事でこれらの機能の概要を紹介しましたが、今回は、これらの機能をプロジェクトでどのように使用できるかを詳しく見ていきましょう。

MetaやMistral AIのLLMをSnowflake Cortex AIでファインチューニングして共有

企業が基本的なAIモデルを最大限に活用するには、特定のドメインやデータセットに合わせてカスタマイズやファインチューニングを行う必要があります。通常、このタスクには2つの義務があります。つまり、どんな場合でもデータを外部に持ち出さないこと、およびインフラストラクチャの構築に多額の投資を行わないことです。 

Snowflakeを利用することで、企業はインフラストラクチャを管理することなく、自社のセキュリティペリメータ内のデータを使用してMetaやMistral AIの主要モデルをファインチューニングできるようになりました。さらに、開発者はSnowflakeモデルレジストリで簡単にカスタムLLMを管理できるようになります。

セキュアモデルシェアリング(現在パブリックプレビュー中)では、3つのステップでカスタム基盤モデルをファインチューニングして共有できます。

  1. 基本モデルを選択し、FINETUNE関数の一部として、またはSnowflake AI & ML Studioのノーコードエクスペリエンスを使用して、トレーニングデータセットを提供する。ファインチューニングされたモデルは、COMPLETE関数を通じて使用できる。

  2. ファインチューニングしたモデルをリージョン内の他のSnowflakeアカウントと安全に共有する。

  3. ファインチューニングしたモデルを組織内のリージョン間で複製する。

Screenshot of using Mistral to fine-tune an LLM in Snowflake
企業は、セキュアモデルシェアリングを使用してカスタムAIモデルを簡単にファインチューニングおよび共有できます。
SNOWFLAKE.CORTEX.FINETUNE(
	‘CREATE’
	<model_name>,
	<base_model>,
	<training_data>,
	<validation_data>
);

Cortex Knowledge ExtensionsでCortex LLMの力を解放

企業は、より関連性の高い回答を提供するために、ドメイン固有の情報で基盤モデルを強化する簡単な方法を求めています。これまでは、適切なデータセットを見つけて調達するのに多くの時間と労力がかかり、データを利用するための準備やLLMのファインチューニングに多くの時間と技術的スキルが必要でした。Snowflakeはすでに、2,900以上のデータセット、アプリ、データプロダクトを迅速に検索、試用、購入できる一元化された場所を提供するSnowflakeマーケットプレイスにより、適切なデータを見つけるというプロセスの最初の部分を合理化しました(2024年10月31日時点)。現在、Cortex Knowledge Extensions(現在プライベートプレビュー中)により、サードパーティデータを簡単に準備および変換できるようになりました。

Cortex Knowledge Extensionsは、コンテンツプロバイダーからの未加工データのファインチューニングやマッサージのための追加の技術的専門知識を必要とせずに、お客様が選択した基盤モデルに特定のドメインの最新情報を追加するための「簡単なボタン」を提供します。重要なのは、お客様は公式にライセンスされたコンテンツを使用しているという自信を持つことです。

Cortex Knowledge Extensionsにより、生成AIアプリケーションはプロバイダーの非構造化データ、ライセンスデータから回答を引き出し、適切なアトリビューションを与え、元のデータセット全体を露出から隔離することができます。これにより、プロバイダーは収益化し、生成AIに参加しながら、コンテンツがモデルトレーニング目的で使用されるリスクを最小限に抑えることができます。 

自社のデータをSnowflakeマーケットプレイスで利用できるようにするには、コンテンツプロバイダーは自社のデータに対してCortex検索サービスを設定し、Snowflakeマーケットプレイスに公開します。公開されると、利用者はリスティングを見つけてSnowflakeマーケットプレイスからデータを取得できます。その後、利用者はCortex AI APIを使用して、LLMに対して、取得したSnowflakeマーケットプレイスのデータを要求することができます。

AIデータクラウドで従来のAI/MLモデルを共有する

解約予測や収益予測などの特定のタスク向けにカスタムAI/MLモデルを構築する企業が増えています。これらのモデルは、データサイエンティストが組織内で開発することも、パートナーが外部で開発することもできます。企業は、これらのモデルの力を解き放ち、インターナルマーケットプレイスと外部向けSnowflakeマーケットプレイスの両方でSnowflakeネイティブアプリを使用して、パートナー、顧客、社内のユーザーと共有できるようになりました。 

Snowflakeセキュアデータシェアリングにより、組織はエンドユーザーがデータに対してきめ細かいロールベースのアクセス制御を行いながら、安全にMLモデルを実行することができます。データ自体が組織のセキュリティ境界を出ることはありません。モデルをSnowflakeネイティブアプリでパッケージ化することにより、モデルに与えられた特定の権限に基づいて、セキュリティスキャン、サンドボックス、ローカルまたは外部リソースへのアクセスなど、Snowflakeネイティブアプリのセキュリティ態勢が確実に継承されます。

モデルの共有は、モデルアーチファクトをアプリケーションパッケージに追加し、アプリケーション固有の利用者の使用権限を付与するだけです。利用者は自由にアプリケーションをインストールし、モデル関数を呼び出すことができます。

Diagram showing the process involved in sharing an AI model via Snowflake Native Apps
モデルのプロバイダーから利用者まで、AIモデルを共有するプロセス

Snowflakeのコラボレーションとデータシェアリングにより、企業はAI/MLモデル(従来のモデルとファインチューニング済みのLLMの両方)を簡単に作成して共有し、そのメリットを企業の他の部門と共有できます。これらの機能の詳細と一部を試すには、以下のリソースをチェックしてください。 

A woman with dark hair and glasses sits at a desk using a laptop, with a graphic of web-like connected dots overlaying the image on the right side
Data Cloud Academy

Snowflake Native App Bootcamp

Learn how to build, operate, maintain and monetize Snowflake Native Apps in 120 minutes of expert-led sessions, hands-on labs and customer examples.
Share Article

Subscribe to our blog newsletter

Get the best, coolest and latest delivered to your inbox each week

30日間の無料トライアルを開始する

Snowflakeの30日間無料トライアルで、他のソリューションに内在する複雑さ、コスト、制約の課題を解決するデータクラウドを体験できます。