Amazon 研究チームは、実際の Amazon データに基づくマルチタスクのオンライン ショッピング ベンチマークである Shopping MMLU をリリースしました。これは、一般的なショッピング アシスタントとしての大規模言語モデル (LLM) の可能性を包括的に評価するように設計されています。ベンチマークには、概念理解、知識推論、ユーザー行動の調整、多言語機能の4つのモジュールをカバーする57のタスクが含まれており、AIアシスタントが実際のショッピングガイドのようにユーザーのニーズを理解し、正確なサービスを提供できるかどうかを検証します。 Shopping MMLU は、20 を超える AI モデルをテストすることで、オンライン ショッピングのマルチタスク学習の性質を明らかにし、命令の微調整におけるオーバーフィッティングや少数ショットの難しさなど、既存の AI モデルが特定の分野での応用で直面する課題を指摘します。学ぶ。 。
機械学習はすでにさまざまなオンライン サービスに浸透しており、オンライン ショッピングは最も成功している分野の 1 つです。近年、機械学習は、ユーザーのクエリ、閲覧記録、レビュー分析、商品の属性抽出など、オンラインショッピングのさまざまなタスクに適用されています。機械学習手法の開発を促進するために、研究者やエンジニアが実際のオンライン ショッピング タスクに対する新しいソリューションを開発および評価するための敷居を下げるために、多くのベンチマークが開発されています。
ただし、既存のモデルやベンチマークは特定のタスクに合わせて調整されていることが多く、オンライン ショッピングの複雑さを完全には把握できません。マルチタスクおよび少数ショット学習機能を備えた大規模言語モデル (LLM) は、特定のタスクのエンジニアリング労力を削減し、ユーザーに対話型の会話を提供することで、オンライン ショッピング エクスペリエンスに革命をもたらす可能性があります。大規模な言語モデルは、その大きな可能性にもかかわらず、ドメイン固有のショッピング概念、暗黙知、異質なユーザー行動など、オンライン ショッピング ドメイン特有の課題にも直面しています。
これらの課題に対処するために、Amazon の研究者は、Amazon の実際のデータに基づいたマルチタスクのオンライン ショッピング ベンチマークである Shopping MMLU を提案しました。ショッピング MMLU には、概念理解、知識推論、ユーザー行動の調整、多言語機能という 4 つの主要なショッピング スキルをカバーする 57 のタスクが含まれているため、ユニバーサル ショッピング アシスタントとしての大規模な言語モデルの可能性を包括的に評価できます。
このショッピング MMLU は通常の「試験」ではなく、実際の Amazon ショッピング データから 57 のタスクを抽出し、概念理解、知識推論、ユーザー行動の調整、多言語機能の 4 つの主要なモジュールをカバーします。簡単に言うと、AIアシスタントがあなたのニーズを理解し、本物のショッピングガイドのように欲しい赤ちゃんを見つけるお手伝いができるかどうかを検討することです。
Amazon の研究者は、ショッピング MMLU を使用して 20 以上の既存の AI モデルをテストし、次のことを発見しました。
Claude-3Sonnet や ChatGPT などの有名な独自の AI モデルは非常に優れたパフォーマンスを発揮し、しっかりと第一段階に位置しています。 しかし、オープンソースの AI モデルも追いつき、「権威」に挑戦する勢いを持っています。
ショッピング MMLU のテスト結果では、オンライン ショッピングは実際にはマルチタスクの学習問題であるという興味深い現象も明らかになりました。 言い換えれば、AI アシスタントが仕事をできるようになるには、複数のスキルを同時に習得する必要があります。
さらに驚くべきことは、一般的な分野で優れたパフォーマンスを発揮する AI モデルが、オンライン ショッピングの分野でも同様に優れているということです。 これは、AI アシスタントが一般的な知識を特定の分野に伝達し、新しいスキルを迅速に習得できることを示しています。
もちろん、AI アシスタントは本質的に完璧ではありません。 研究者らは、命令微調整 (IFT) などの一般的に使用される AI トレーニング手法の一部が場合によってはモデルの過学習につながり、それがパフォーマンスに影響を与える可能性があることを発見しました。
さらに、数ショット学習も AI アシスタントが直面する大きな課題です。 これは、AI アシスタントは新しいタスクに直面したときに迅速に学習する必要があり、常に大量のトレーニング データに依存できるわけではないことを意味します。
つまり、Amazon のショッピング MMLU ベンチマークは、AI アシスタントの開発の方向性を示しています。将来的には、私たちのショッピング体験をより便利で楽しいものにしてくれる、よりスマートで人間味のあるオンライン ショッピング AI アシスタントが登場することを楽しみにしています。
研究者らは、注目に値するいくつかの詳細も発見しました。
ショッピング MMLU は、他の既存のオンライン ショッピング AI データセットよりも複雑で困難です。
ドメイン固有の命令の微調整は常にうまく機能するとは限らず、すでに多くの一般知識を備えた強力なモデルでのみ機能します。
現在、最も高度な AI モデルであっても、特定のオンライン ショッピング タスクでは、これらのタスク用に特別に設計されたアルゴリズムほどうまく機能しません。
この研究結果は、完璧なオンライン ショッピング AI アシスタントを構築するにはまだ長い道のりがあることを示しています。今後の研究の方向性としては、より効果的な AI トレーニング方法の開発、より多様なオンライン ショッピング AI データ セットの構築、AI モデルとタスク固有のアルゴリズムを組み合わせてより強力なハイブリッド AI システムを作成することが含まれます。
最後に、研究者らはこの研究のいくつかの限界も率直に指摘した。
ショッピング MMLU のデータは主に Amazon から取得されており、他の電子商取引プラットフォームのユーザー行動を完全には表していない可能性があります。
研究者の努力にもかかわらず、ショッピング MMLU のデータには依然としてエラーが含まれている可能性があります。
全体として、この Amazon の調査は、スマート ショッピングの将来の時代への扉を開きます。近い将来、ネットショッピングAIアシスタントは私たちの生活に欠かせないものになると思います。
論文アドレス: https://arxiv.org/pdf/2410.20745
データと評価コード:
https://github.com/KL4805/ShoppingMMLU
KDDカップ2024ワークショップと優勝チームのソリューション:
https://amazon-kddcup24.github.io/
評価リスト:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
Amazon が開始したショッピング MMLU ベンチマーク テストを通じて、オンライン ショッピング分野における大規模言語モデルの現在の適用状況と将来の開発の方向性をより明確に理解することができます。この研究は、AI モデルの改善に貴重な参考資料を提供するだけでなく、ユーザーのオンライン ショッピング エクスペリエンスを向上させる方法を示し、よりインテリジェントで便利なショッピング時代の到来を予告します。