SnowflakeのArctic-TILT:単一のA10 GPUに最先端のドキュメントインテリジェンスLLMを搭載
現在、企業全体でPDF、画像、動画、音声ファイルなどの非構造化データが急増しています。しかし、このデータのかなりの部分を占め、重要な価値を持つドキュメントは、非効率的で手作業による方法で処理され続けています。
非構造化データからより多くの価値を引き出すために、SnowflakeはドキュメントAIを導入しました。この新機能は現在プライベートプレビュー中ですが、Snowflake Arctic-TILT(テキスト画像レイアウトトランスフォーマー)と呼ばれる独自のビルトインのマルチモーダル大規模言語モデル(LLM)により、請求額や契約条件などのコンテンツを文書から簡単に抽出することができます。Arctic-TILTは、4月24日に発表した効率的でオープンソースのLLMであるSnowflake Arcticに加わりました。これは、LLMの精度を継続的に改善し、企業専用製品を製造するというSnowflake AI研究チームのコミットメントの証です。
この度、私たちは、Arctic-TILTの画期的なベンチマーク成果をご紹介できることを誇りに思います。8億個のパラメータを含むこのモデルは、視覚的なドキュメントの質問回答の標準であるDocVQAベンチマークテストで最高のスコアを獲得しています。さらに、8x220BのMoEモデルとされるGPT-4にも勝利しました。
これは、特にターゲットアプリケーション向けにカスタマイズされた小型で効率的なモデルが、より大規模で汎用的なモデルより性能が高いことを示しています。また、Arctic-TILTモデルが単一のA10 GPUインスタンスに収まり、より安価で利用しやすくなります。
Arctic-TILTとは
Arctic-TILTはSnowflakeが開発したLLMで、独自のトランスフォーマーアーキテクチャを利用し、文書のデータを理解し抽出するよう調整されています。複数のデータモダリティを組み合わせることで、Arctic-TILTは文書理解タスクにおいて比類ない汎用性と性能を提供します。このモデルは、SnowflakeのドキュメントAI機能を強化します。これは、ユーザーが自然言語インターフェイスを介してモデルと対話できるようにするインテリジェントなドキュメント処理ソリューションです。ユーザーは、ボタンをクリックするだけで、自分のドキュメントに質問したり、回答を評価して注釈を付けたり、必要に応じてモデルを微調整したりできます。Snowflakeのプラットフォームの一部であるこのソリューションにより、ユーザーは非構造化データを構築し、テーブル内の既存のデータと並行してデータを処理し、これまでできなかった自動化されたワークロードやアナリティクスを生成できます。
主な機能と性能
- マルチモーダル理解:Arctic-TILTは、テキスト、画像、空間レイアウトの情報を同時に理解、分析、抽出することができ、コンテンツとそのコンテキストの総合的な理解を提供します。
- 最先端のパフォーマンス:DocVQAなどのベンチマークにおいて、Arctic-TILTは、GPT-4などのモデルより桁違いに多くのパラメータを使用して、同等の視覚的質問応答能力を示します。
- 拡張コンテキストウィンドウ:Arctic-TILTは、375,000トークンという非常に大きなコンテキストウィンドウが特徴です。この機能は、マルチモーダルコンテンツの完全なコンテキストを把握するために極めて重要です。
- 効率的な推論:Arctic-TILTは、ビジネス文書処理において極めて重要な性能と精度を維持しながら、小規模と大規模の両方の文書量を処理できるように設計されています。
- 適応性:幅広いアプリケーションや業界向けに設計されたArctic-TILTは、特定のドキュメントやフォーマットについての知識を必要とせず、必要に応じて簡単に微調整できます。
重量以上のパンチング:DocVQA上のArctic-TILT
平均正規化レーベンシュタイン類似度(ANLS)スコアは、さまざまなテキスト入力の処理におけるモデルのパフォーマンスを総合的に評価するために使用する指標です。当社の最新のDocVQAデータセット評価では、Arctic-TILTは、他のLLMよりもはるかに少ないパラメータで(したがって安価で)大幅に小さいにもかかわらず、90%のANLSスコアを達成しました。他のモデルとは異なり、Arctic-TILTは最先端の結果に一致するパラメータを効率的に活用するため、多くの場合、リソースを大量に消費するモデルより優れた性能を発揮します。この効率性は、パフォーマンスとリソース使用率のバランスを最適化し、エンタープライズ規模のコスト効率の高いトレーニングを可能にする、目的に特化した高度な設計の産物です。つまり、Snowflakeのお客様は、その効率性のメリットを低コストで享受できます。
Snowflake Arcticと同様に、Arctic-TILTも無駄のないパラメータセットでトップレベルの成果を出すよう構築されています。これは、AI機能の限界を押し広げようとするSnowflakeの献身的な姿勢だけでなく、スケーラブルなエンタープライズAIソリューションの開発へのコミットメントを反映したものです。このパラダイムは、堅牢な結果と低いリソース使用量の組み合わせにより、高度なAIをより利用しやすく、機敏で効果的なものにします。
Why DocVQA?
Document Visual Question Answering(DocVQA)は、ドキュメント中心の質問と回答を処理するモデルの機能を評価するための定評のあるベンチマークです。12,000点以上のドキュメント画像に定義される50,000個の質問からなるデータセットで、ドキュメントが伝えるさまざまなタイプの情報を理解するモデルの能力をテストします。これには以下が含まれます。
- テキストコンテンツ(手書きまたはタイプライター)
- テキスト以外の要素(マーク、目盛り、区切り、図)
- レイアウト(ページ構造、フォーム、テーブル)
複雑なドキュメント理解が極めて重要な実際のシナリオにおいて、Arctic-TILTはDocVQAに優れた性能を発揮します。
AIユースケースとアプリケーションを文書化する
Arctic-TILTを利用したSnowflakeドキュメントAIにより、ユーザーは非構造化データを扱う新しい方法を手にすることができます。ドキュメントAIにより、Arctic-TILTモデルのセットアップと展開が簡素化され、機械学習のバックグラウンドのないユーザーでも、価値の高いエンタープライズ規模の抽出タスクのためのモデルビルドを簡単にパッケージ化できるようになります。直観的な自然言語インターフェースにより、ドキュメント所有者は専門分野の専門知識を使用して特定のユースケース向けにモデルを準備し、必要に応じてボタンを1回クリックするだけでモデルをトレーニングできます。
モデルの準備が完了すると、パイプラインエンジニアやデータエンジニアに手綱が渡され、パイプラインエンジニアはこれらのモデルを運用ワークフローやフレームワークに埋め込みます。このシームレスな統合は、効率を高めるだけでなく、エンタープライズ環境内のAIの潜在的なアプリケーションをスケールアップします。
すでに、さまざまな業界のプライベートプレビュー顧客がドキュメントAIを使用して、ヘルスケアにおける患者記録や保険金請求、金融サービスにおける税務申告やロードアプリケーション、テクノロジーにおけるライセンス契約、メディアにおける人材契約や著作権契約など、さまざまなドキュメントの価値を高めています。
今後を見据えてドキュメントAIの活用を始める
6月3日~6日に開催されるData Cloud Summitにご参加ください。ドキュメントAIの詳細と、エンタープライズAIの力をビジネス全体にもたらす方法について学びます。
ドキュメントAIを直接試すには、Snowflakeのお客様がアカウントチームに連絡して詳細とイネーブルメントを依頼してください。エンタープライズインテリジェンス向けに最適化された効率的で真にオープンなモデルであるArctic LLMや、Hugging FaceまたはSnowflake Cortexで利用できる検索用の世界最高の実用的なテキスト埋め込みモデルであるArctic embedなど、SnowflakeのArcticモデルを使用することも、今すぐ始めることができます。