AIデータクラウドでのAIモデルの安全かつ確実な共有と収益化
生成AIモデルの台頭により、企業はAIと大規模言語モデル(LLM)をビジネス戦略に組み込む必要に迫られています。最終的に、これらのモデルは、企業のデータとIPからより大きな価値を引き出し、組織全体のより幅広いオーディエンスがアクセスできるようにする新しい機会を開きます。
生成AIモデルをうまく活用するためのカギの1つは、データ共有機能です。LLMのファインチューニングに使用できる貴重なデータを持つ企業は、元のデータソースへのアクセスを許可することなく、LLMを収益化してファインチューニングに使用できるようにしたいと考えています。また、すべての使用が自社に適切に還元されることも望んでいます。
残念ながら、現在利用可能なソリューションの多くは、企業が安全かつ確実にデータを共有するためのツールを提供していません。
組織の貴重なデータが常にその組織によって管理され、他の関係者が利用できないようにする必要性。不適切または悪意のある使用につながる可能性がある
企業内で使用されているサードパーティモデルの安全なサンドボックス化
データとモデルへのアクセスを注意深く監視
Snowflakeでは、これらの課題に真正面から取り組み、開発者がエンタープライズデータを使用して信頼性の高いAIをより簡単に提供できるようにしています。
最近のBUILD 2024 デベロッパーカンファレンスでは、ファインチューニングされたLLMの共有、LLMをトレーニングするためのデータセットの共有、従来のAI/MLモデルの共有をAIデータクラウドの内外で安全かつ確実に実現するのに役立つ、3つの機能を取り上げました。前回のブログ記事でこれらの機能の概要を紹介しましたが、今回は、これらの機能をプロジェクトでどのように使用できるかを詳しく見ていきましょう。
MetaやMistral AIのLLMをSnowflake Cortex AIでファインチューニングして共有
企業が基本的なAIモデルを最大限に活用するには、特定のドメインやデータセットに合わせてカスタマイズやファインチューニングを行う必要があります。通常、このタスクには2つの義務があります。つまり、どんな場合でもデータを外部に持ち出さないこと、およびインフラストラクチャの構築に多額の投資を行わないことです。
Snowflakeを利用することで、企業はインフラストラクチャを管理することなく、自社のセキュリティペリメータ内のデータを使用してMetaやMistral AIの主要モデルをファインチューニングできるようになりました。さらに、開発者はSnowflakeモデルレジストリで簡単にカスタムLLMを管理できるようになります。
セキュアモデルシェアリング(現在パブリックプレビュー中)では、3つのステップでカスタム基盤モデルをファインチューニングして共有できます。
基本モデルを選択し、FINETUNE関数の一部として、またはSnowflake AI & ML Studioのノーコードエクスペリエンスを使用して、トレーニングデータセットを提供する。ファインチューニングされたモデルは、COMPLETE関数を通じて使用できる。
ファインチューニングしたモデルをリージョン内の他のSnowflakeアカウントと安全に共有する。
ファインチューニングしたモデルを組織内のリージョン間で複製する。
SNOWFLAKE.CORTEX.FINETUNE(
‘CREATE’
<model_name>,
<base_model>,
<training_data>,
<validation_data>
);
Cortex Knowledge ExtensionsでCortex LLMの力を解放
企業は、より関連性の高い回答を提供するために、ドメイン固有の情報で基盤モデルを強化する簡単な方法を求めています。これまでは、適切なデータセットを見つけて調達するのに多くの時間と労力がかかり、データを利用するための準備やLLMのファインチューニングに多くの時間と技術的スキルが必要でした。Snowflakeはすでに、2,900以上のデータセット、アプリ、データプロダクトを迅速に検索、試用、購入できる一元化された場所を提供するSnowflakeマーケットプレイスにより、適切なデータを見つけるというプロセスの最初の部分を合理化しました(2024年10月31日時点)。現在、Cortex Knowledge Extensions(現在プライベートプレビュー中)により、サードパーティデータを簡単に準備および変換できるようになりました。
Cortex Knowledge Extensionsは、コンテンツプロバイダーからの未加工データのファインチューニングやマッサージのための追加の技術的専門知識を必要とせずに、お客様が選択した基盤モデルに特定のドメインの最新情報を追加するための「簡単なボタン」を提供します。重要なのは、お客様は公式にライセンスされたコンテンツを使用しているという自信を持つことです。
Cortex Knowledge Extensionsにより、生成AIアプリケーションはプロバイダーの非構造化データ、ライセンスデータから回答を引き出し、適切なアトリビューションを与え、元のデータセット全体を露出から隔離することができます。これにより、プロバイダーは収益化し、生成AIに参加しながら、コンテンツがモデルトレーニング目的で使用されるリスクを最小限に抑えることができます。
自社のデータをSnowflakeマーケットプレイスで利用できるようにするには、コンテンツプロバイダーは自社のデータに対してCortex検索サービスを設定し、Snowflakeマーケットプレイスに公開します。公開されると、利用者はリスティングを見つけてSnowflakeマーケットプレイスからデータを取得できます。その後、利用者はCortex AI APIを使用して、LLMに対して、取得したSnowflakeマーケットプレイスのデータを要求することができます。
AIデータクラウドで従来のAI/MLモデルを共有する
解約予測や収益予測などの特定のタスク向けにカスタムAI/MLモデルを構築する企業が増えています。これらのモデルは、データサイエンティストが組織内で開発することも、パートナーが外部で開発することもできます。企業は、これらのモデルの力を解き放ち、インターナルマーケットプレイスと外部向けSnowflakeマーケットプレイスの両方でSnowflakeネイティブアプリを使用して、パートナー、顧客、社内のユーザーと共有できるようになりました。
Snowflakeセキュアデータシェアリングにより、組織はエンドユーザーがデータに対してきめ細かいロールベースのアクセス制御を行いながら、安全にMLモデルを実行することができます。データ自体が組織のセキュリティ境界を出ることはありません。モデルをSnowflakeネイティブアプリでパッケージ化することにより、モデルに与えられた特定の権限に基づいて、セキュリティスキャン、サンドボックス、ローカルまたは外部リソースへのアクセスなど、Snowflakeネイティブアプリのセキュリティ態勢が確実に継承されます。
モデルの共有は、モデルアーチファクトをアプリケーションパッケージに追加し、アプリケーション固有の利用者の使用権限を付与するだけです。利用者は自由にアプリケーションをインストールし、モデル関数を呼び出すことができます。
Snowflakeのコラボレーションとデータシェアリングにより、企業はAI/MLモデル(従来のモデルとファインチューニング済みのLLMの両方)を簡単に作成して共有し、そのメリットを企業の他の部門と共有できます。これらの機能の詳細と一部を試すには、以下のリソースをチェックしてください。