MTEBとBEIRの先へ:Snowflake AI Research、ウォータールー大学と共同でRAGおよび検索ベンチマークを進化
LLMを使用してビジネス上の疑問に正確に答えるには、企業が自社のデータでモデルを増強する必要があります。検索拡張生成(RAG)は、LLMのプロンプトに組織の事実に基づくリアルタイムデータを統合するため、この問題に対する一般的なソリューションです。RAGの採用は増加していますが、未解決の問題があります。企業は自社のシステムの有効性をどのように把握していますか?
検索品質の向上に対する関心の高まりを受け、BEIR、MTEB、MSMARCOなどのオープンで共同開発されたベンチマークにより、急増する新しい検索システムを簡単に比較評価できるようになりました。これらのベンチマークは、Snowflakeと他の多くの検索エキスパートが北極圏埋め込みモデルのパフォーマンスを定量化するために使用した、よく研究されたワークロードの独立したデータセットから発展しました。企業が自社のデータと対話できる、より高度で効率的な検索を開発し続けるには、ベンチマークデータセットがこれらのユースケースを直接表現していることを確認することが重要です。広く使用されているSnowflakeのデータクラウドを土台として、検索ベンチマークの進化をオープンかつ協力的にサポートし、業界を前進させることを目指しています。
より広範なエコシステムがパフォーマンスを継続的に改善できるよう、Snowflakeと、Jimmy Lin教授の研究能力で有名なウォータールー大学の検索エキスパートチームとの独自のコラボレーションを発表します。私たちは協力して、次世代の検索評価ベンチマークを構築し、RAGエージェントのパフォーマンスをより適切に理解して評価することに取り組んでいます。
「研究者として、実世界検索アプリケーションのより良い表現を構築するというこの共同ミッションでSnowflakeと協力できることを嬉しく思います。「Snowflakeの実用的なエンタープライズAIに関する専門知識と学術的インサイトを組み合わせることで、AIイノベーションの新たなフロンティアを切り開くことができるでしょう。」
Snowflakeでは、お客様がエンタープライズデータを最大限に活用できるようにすることを目指しています。効率的でスケーラブルな伸縮性のあるコンピューティングから、データとの対話に最適なツールやフレームワークまで、私たちは迅速、正確、効率的にインサイトを提供するよう努めています。RAGのようなシステムとワークフローが拡大すると、これらのシステムのパフォーマンスを評価し、定量化する必要があることがすぐに明らかになりました。
それまでのすべてのベンチマークと同様に、メトリクスやタスクは飽和状態になり、リーダーボードの改善と現実のギャップは広がり始めます。オープンソースの埋め込みモデルファミリーであるSnowflake Arctic embedでの作業では、迅速なイテレーションと適格性評価のためにMTEBが重要でしたが、社内ベンチマークと比較して、既存のベンチマークでは改善の余地が大きくなっています。
私たちのコラボレーションの目的は 新しい検索モデルを作ることではなく斬新なオープンソースデータセットやタスクを生み出し その分野に革命を起こします私たちは、コミュニティ主導の研究開発アプローチ、すなわちエキサイティングで画期的な変化をもたらす戦略を育成しています。
- TREC RAG:Lin教授とSnowflakeのDr.Daniel Camposは、ワールドクラスのベンチマークとデータセットの作成において、引用世代と接地世代の品質と、それが検索、生成モード、ユースケースの品質にどのように影響するかを把握、評価することに焦点を当てています。
- BEIR v2(情報検索のベンチマーク評価):Nandan Thakurの最初のBEIRベンチマーク構築の経験と商用検索システムに関する専門知識を土台として、埋め込みモデルを使用するワークロードにより近い、改良された新しい検索ベンチマークの作成に取り組んでいます。
私たちは、このジャーニーを楽しみにしているだけではありません。ウォータールー大学のジミー・リン教授と優秀な研究者と共に、情報検索とAIの未来を形作ることに胸を躍らせています。このコラボレーションの進捗とブレークスルーについては、後日お知らせいたします。注目すべきものとなると確信しています。
今年6月にサンフランシスコで開催されるSnowflakeデータクラウドサミットで、SnowflakeのAI研究について学びましょう。