Snowflake AI ResearchのSwiftKV、Cortex AIでのMeta Llama LLMの推論コストを最大75%削減

Digital illustration of connected lines and dots in a column lined with grids

大規模言語モデル（LLM）は、効率的な顧客サポートからシンプルなデータ分析まで、さまざまな業界のソリューションを推進する生成AI変革の中核です。企業は生成AIソリューションを拡張するために、高性能でコスト効率の高い、低レイテンシーの推論を必要としています。しかし、LLM推論の複雑さとコンピュート能力には課題があります。多くのワークロードでは、推論コストが依然として膨大です。そこで登場したのが、SwiftKVとSnowflake Cortex AIです。

SwiftKVの最適化は、Snowflake AI Researchチームによって開発されてvLLMに統合されており、LLM推論スループットの大幅な向上とコストの削減を実現します。SwiftKVに最適化されたLlama 3.3 70BおよびLlama 3.1 405Bモデルである、Snowflake-LLama-3.3-70BおよびSnowflake-Llama-3.1-405Bが、Cortex AIのサーバーレス推論で利用できるようになりました。これにより、SwiftKVに最適化されていないCortex AIのベースラインMeta Llamaモデルと比較して、推論コストが最大75%削減しました。お客様は、COMPLETE関数を介してCortex AIでこれらにアクセスできます。私たちは、組織が効率的かつコスト効率の良い方法でAIアプリを実稼働環境に導入できるよう、Snowflake Cortex AIで利用可能な他のモデルファミリーにもこの最適化を適用することを検討しています。

SwiftKVの概要

では、SwiftKVがどのようにこのパフォーマンスを実現しているのか見ていきましょう。エンタープライズのユースケースでは、多くの場合、最小限の出力となる長い入力プロンプト（ほぼ（ほぼ1対10）が使用されます。これは、キー値（KV）キャッシュ生成の入力（またはプリフィルステージ）中にコンピュートリソースの大部分が消費されることを意味します。SwiftKVは前のトランスフォーマーレイヤーの非表示ステートを再利用し、後のレイヤー用のKVキャッシュを生成します。これにより、プリフィル段階での重複計算がなくなり、計算オーバーヘッドが大幅に削減されます。これにより、エンタープライズアプリケーションに必要な精度レベルを維持しながら、プリフィルコンピュートを最大50%削減することができます。この最適化により、スループットが向上し、より費用対効果の高い推論スタックが実現します。

SwiftKVは、精度の低下を最小限に抑えながら、より高いスループットパフォーマンスを実現します（表1および表2を参照）。これは、パラメータを保持したモデルに軽量のファインチューニングをリワイヤリングして組み合わせることにより、プロセスで知識が失われる可能性を最小限に抑えることによって行われます。リワイヤードモデルは自己蒸留によって元の挙動を再現し、ほぼ同等のパフォーマンスを実現します。精度損失は、複数のベンチマークの平均で1ポイント程度に限定されます（表1および表2を参照）。この最適化への精密なアプローチにより、企業は生成AI出力の品質を損なうことなく、SwiftKVの計算効率のメリットを享受できます。

表1：Llama 3.3 70B-InstructのベースラインとSnowflake SwiftKVバージョンの品質比較をSimple-Evalで評価。

表2：Llama 3.1 405B-InstructのベースラインとSnowflake SwiftKVバージョンの品質比較をSimple-Evalで評価。

当社のベンチマークによると、SwiftKVは実稼働のユースケースにおいて、標準的なKVキャッシュ実装と従来のKVキャッシュ圧縮方法のパフォーマンスを常に上回っています。たとえば、NVIDIA H100などのハイエンドGPUを使用する実稼働環境において、SwiftKVはLlama-3.3-70Bなどのモデルで最大2倍のスループットを達成します（図1を参照）。これらの改善は、大規模なオペレーションを実行している企業にとって、ジョブの迅速な完了、インタラクティブなアプリケーションのレイテンシーの短縮（表3を参照）、大幅なコスト削減につながります。

ユースケース別のパフォーマンス

Combined input and output throughput of Llama 3.3 70B (left) and Llama 3.1 405B (right) with and without SwiftKV. The x-axis represents input sequence length.

図1：Llama 3.3 70B（左）とLlama 3.1 405B（右）の入出力スループットを結合したもの。x軸は入力シーケンスの長さを表します。

SwiftKVは、さまざまなユースケースでパフォーマンスの最適化を可能にします。非構造化テキスト処理（要約、翻訳、センチメント分析など）などの大規模な推論タスクの場合、SwiftKVは結合スループットを改善し（図1を参照）、企業がより多くのデータをより短時間で処理できるようにします。チャットボットやAIコパイロットなどの遅延の影響を受けやすいシナリオでは、SwiftKVによって最初のトークンを得るまでの時間が最大50%短縮され（表4を参照）、より迅速でレスポンシブなユーザー体験につながります。さらに、SwiftKVは、大きな変更なしにvLLMとシームレスに統合でき、アテンション最適化や投機的デコードなどの幅広い補完的最適化技術を可能にします。この統合により、SwiftKVはエンタープライズワークロードのための汎用的で実用的なソリューションとなりました。

表3：長いコンテキスト生成に特化した、SwiftKVによるジョブ完了の高速化。

表4：SwiftKVにより、最初のトークン取得までの時間を最大2分の1に短縮。

Snowflake Cortex AIでのSwiftKV

LLMテクノロジーを採用する企業にとって、SwiftKVの導入は重要な局面となります。ユースケースの拡大に伴い、組織は即時の性能向上と長期的なスケーラビリティの両方を実現するソリューションを必要としています。SwiftKVは、推論のコンピュートボトルネックに直接対処することで、企業がLLMの実稼働展開の可能性を最大限に引き出すための新たな道筋を提供します。私たちは、推論機能を備えたSnowflake-Llama-3.3-70BとSnowflake-Llama-3.1-405Bをごくわずかなコスト（それぞれ75%と68%低いコスト）でリリースし、LlamaモデルにSwiftKVイノベーションを提供できることを嬉しく思います。Snowflakeから派生したLlamaモデルは、簡単かつ費用対効果の高い方法で、組織内の生成AIイノベーションを拡大するという課題に対処している企業に大きな変革をもたらします。

SwiftKVオープンソース

始める：このクイックスタートに従って、独自のSwiftKVトレーニングを実行します。

SwiftKVは完全なオープンソースであるため、Hugging FaceのモデルチェックポイントとvLLMの最適化された推論を使用して独自に展開することもできます。詳しくは、SwiftKVについて調査したブログ記事をご覧ください。

また、私たちはArcticTraining Frameworkを介した知識蒸留パイプラインをオープンソース化しているため、企業や学術機関のニーズに応じて独自のSwiftKVモデルを構築することもできます。ArcticTraining Frameworkは、研究開発を効率化するための強力なポストトレーニングライブラリです。複雑な抽象レイヤーや汎用化に煩わされることなく、ポストトレーニングのためのリサーチや新しいアイデアのプロトタイプ作成を進められるようにするためのサポートを目的としています。高品質でユーザーフレンドリーな合成データ生成パイプライン、アルゴリズムイノベーションのためのスケーラブルで適応性のあるトレーニングフレームワーク、独自のSwiftKVモデルをトレーニングするためのすぐに使用できるレシピを提供します。

結論

生成AIイノベーションは業界やユースケースの垣根を越えて拡大し続けているため、費用対効果とパフォーマンスに優れた方法でAIをエンドユーザーに提供するには、SwiftKVのような最適化が不可欠です。オープンソースとして利用可能になったSwiftKVは、エンタープライズ級の生成AIをより高速かつ低コストで実行します。さらに一歩進んで、Snowflake Cortex AIのSwiftKVで最適化されたLlamaモデルもリリースします。Snowflake-Llama-3.3-70BモデルとSnowflake-Llama-3.1-405Bモデルにより、推論コストが最大75%削減されました。私たちは、コスト効率とパフォーマンスに優れた生成AIソリューションの構築を支援しています。