L'équipe de recherche d'Amazon a publié Shopping MMLU, une référence d'achat en ligne multitâche basée sur des données réelles d'Amazon, conçue pour évaluer de manière exhaustive le potentiel des grands modèles linguistiques (LLM) en tant qu'assistant d'achat général. Le benchmark contient 57 tâches, couvrant quatre modules : compréhension du concept, raisonnement des connaissances, alignement du comportement des utilisateurs et capacités multilingues, pour examiner si l'assistant IA peut comprendre les besoins des utilisateurs comme un véritable guide d'achat et fournir des services précis. En testant plus de 20 modèles d'IA, Shopping MMLU révèle la nature d'apprentissage multi-tâches des achats en ligne et souligne les défis auxquels les modèles d'IA existants sont confrontés dans leur application dans des domaines spécifiques, tels que le surapprentissage dans le réglage fin des instructions et la difficulté de quelques tirs. apprentissage. .
L'apprentissage automatique a déjà pénétré divers services en ligne, et les achats en ligne sont l'un des domaines les plus performants. Ces dernières années, l'apprentissage automatique a été appliqué à diverses tâches d'achat en ligne, telles que les requêtes des utilisateurs, les enregistrements de navigation, l'analyse des avis, l'extraction des attributs de produits, etc. Pour promouvoir le développement de méthodes d'apprentissage automatique, de nombreux critères de référence ont été développés pour abaisser le seuil permettant aux chercheurs et aux ingénieurs de développer et d'évaluer de nouvelles solutions pour des tâches réelles d'achat en ligne.
Cependant, les modèles et critères de référence existants sont souvent adaptés à des tâches spécifiques et ne peuvent pas pleinement saisir la complexité des achats en ligne. Les grands modèles linguistiques (LLM), avec leurs capacités d'apprentissage multitâches et en quelques étapes, ont le potentiel de révolutionner l'expérience d'achat en ligne en réduisant l'effort d'ingénierie pour des tâches spécifiques et en offrant aux utilisateurs des conversations interactives. Malgré leur grand potentiel, les modèles linguistiques à grande échelle sont également confrontés à des défis uniques dans le domaine des achats en ligne, tels que des concepts d'achat spécifiques à un domaine, des connaissances tacites et des comportements hétérogènes des utilisateurs.
Pour relever ces défis, les chercheurs d'Amazon ont proposé Shopping MMLU, une référence d'achat en ligne multitâche basée sur des données réelles d'Amazon. Shopping MMLU contient 57 tâches couvrant 4 compétences d'achat majeures : compréhension conceptuelle, raisonnement des connaissances, alignement du comportement des utilisateurs et capacités multilingues, de sorte que le potentiel des grands modèles linguistiques en tant qu'assistants d'achat universels peut être évalué de manière exhaustive.
Ce Shopping MMLU n'est pas un « examen » ordinaire. Il extrait 57 tâches à partir de données d'achat réelles d'Amazon, couvrant quatre modules principaux : compréhension conceptuelle, raisonnement des connaissances, alignement du comportement des utilisateurs et capacités multilingues. Pour faire simple, il s’agit d’examiner si l’assistant IA peut comprendre vos besoins et vous aider à trouver le bébé que vous désirez comme un véritable guide d’achat.
Les chercheurs d'Amazon ont testé plus de 20 modèles d'IA existants avec Shopping MMLU et ont découvert :
Ces modèles d'IA propriétaires bien connus, tels que Claude-3Sonnet et ChatGPT, fonctionnent très bien et se situent fermement au premier échelon. Cependant, les modèles d'IA open source rattrapent également leur retard et ont l'élan nécessaire pour défier « l'autorité ».
Les résultats des tests de Shopping MMLU ont également révélé un phénomène intéressant : les achats en ligne sont en fait un problème d'apprentissage multitâche. En d’autres termes, l’assistant IA doit maîtriser plusieurs compétences en même temps pour pouvoir faire son travail.
Ce qui est encore plus surprenant, c’est que les modèles d’IA qui fonctionnent bien dans le domaine général le sont également dans le domaine des achats en ligne. Cela montre que les assistants IA peuvent transférer des connaissances générales vers des domaines spécifiques et acquérir rapidement de nouvelles compétences.
Bien entendu, les assistants IA ne sont pas intrinsèquement parfaits. Les chercheurs ont découvert que certaines méthodes de formation de l’IA couramment utilisées, telles que le réglage fin des instructions (IFT), peuvent conduire dans certains cas à un surajustement du modèle, ce qui à son tour affecte ses performances.
En outre, l’apprentissage en quelques étapes constitue également un défi majeur pour les assistants IA. Cela signifie que les assistants IA doivent apprendre rapidement lorsqu’ils sont confrontés à de nouvelles tâches et ne peuvent pas toujours s’appuyer sur de grandes quantités de données de formation.
En bref, le benchmark Shopping MMLU d'Amazon indique la direction à suivre pour le développement des assistants IA. À l’avenir, nous attendons avec impatience de voir des assistants d’achat en ligne plus intelligents et plus humains qui rendront notre expérience d’achat plus pratique et plus agréable.
Les chercheurs ont également découvert quelques détails intéressants à noter :
Shopping MMLU est plus complexe et plus difficile que les autres ensembles de données d'IA d'achat en ligne existants.
Le réglage fin des instructions spécifiques à un domaine ne fonctionne pas toujours bien et ne fonctionne que sur des modèles solides qui possèdent déjà de nombreuses connaissances générales.
Actuellement, même les modèles d’IA les plus avancés ne fonctionnent pas aussi bien sur certaines tâches d’achat en ligne que les algorithmes spécialement conçus pour ces tâches.
Les résultats de cette étude montrent qu’il reste encore un long chemin à parcourir pour créer un assistant IA parfait pour les achats en ligne. Les orientations de recherche futures comprennent : le développement de méthodes de formation à l’IA plus efficaces, la création d’ensembles de données d’IA pour les achats en ligne plus diversifiés et la combinaison de modèles d’IA avec des algorithmes spécifiques à des tâches pour créer des systèmes d’IA hybrides plus puissants.
Enfin, les chercheurs ont également souligné franchement certaines limites de l’étude :
Les données de Shopping MMLU proviennent principalement d'Amazon et peuvent ne pas représenter entièrement le comportement des utilisateurs d'autres plateformes de commerce électronique.
Malgré les efforts des chercheurs pour l'éviter, les données du Shopping MMLU peuvent encore contenir des erreurs.
Dans l’ensemble, cette étude d’Amazon ouvre la porte à l’ère future du shopping intelligent. Je pense que dans un avenir proche, les assistants IA pour les achats en ligne deviendront un élément indispensable de nos vies.
Adresse papier : https://arxiv.org/pdf/2410.20745
Données et code d'évaluation :
https://github.com/KL4805/ShoppingMMLU
Atelier KDD Cup 2024 et solutions de l’équipe gagnante :
https://amazon-kddcup24.github.io/
Liste d'évaluation :
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
Grâce au test de référence Shopping MMLU lancé par Amazon, nous pouvons mieux comprendre l'état actuel des applications et l'orientation future du développement des grands modèles de langage dans le domaine des achats en ligne. Cette recherche fournit non seulement une référence précieuse pour l’amélioration des modèles d’IA, mais montre également la voie à suivre pour améliorer l’expérience d’achat en ligne des utilisateurs, annonçant l’arrivée d’une ère d’achat plus intelligente et plus pratique.