A equipe de pesquisa da Amazon lançou o Shopping MMLU, um benchmark de compras on-line multitarefa baseado em dados reais da Amazon, projetado para avaliar de forma abrangente o potencial dos modelos de linguagem grande (LLM) como assistente de compras geral. O benchmark contém 57 tarefas, abrangendo quatro módulos: compreensão do conceito, raciocínio do conhecimento, alinhamento do comportamento do usuário e recursos multilíngues, para examinar se o assistente de IA pode entender as necessidades do usuário como um guia de compras real e fornecer serviços precisos. Ao testar mais de 20 modelos de IA, o Shopping MMLU revela a natureza de aprendizagem multitarefa das compras online e aponta os desafios que os modelos de IA existentes enfrentam na aplicação em campos específicos, como o ajuste excessivo no ajuste fino das instruções e a dificuldade de poucas tentativas. aprendizado. .
O aprendizado de máquina já penetrou em vários serviços online, e as compras online são uma das áreas de maior sucesso. Nos últimos anos, o aprendizado de máquina tem sido aplicado a diversas tarefas de compras online, como consultas de usuários, registros de navegação, análise de avaliações, extração de atributos de produtos, etc. Para promover o desenvolvimento de métodos de aprendizado de máquina, muitos benchmarks foram desenvolvidos para reduzir o limite para pesquisadores e engenheiros desenvolverem e avaliarem novas soluções para tarefas reais de compras online.
No entanto, os modelos e benchmarks existentes são muitas vezes adaptados para tarefas específicas e não conseguem captar totalmente a complexidade das compras online. Os Large Language Models (LLMs), com suas capacidades de aprendizagem multitarefa e de poucas tentativas, têm o potencial de revolucionar a experiência de compra on-line, reduzindo o esforço de engenharia para tarefas específicas e proporcionando aos usuários conversas interativas. Apesar do seu grande potencial, os modelos de linguagem em grande escala também enfrentam desafios únicos no domínio das compras online, tais como conceitos de compras específicos de domínio, conhecimento tácito e comportamentos heterogéneos dos utilizadores.
Para enfrentar esses desafios, os pesquisadores da Amazon propuseram o Shopping MMLU, um benchmark de compras online multitarefa baseado em dados reais da Amazon. O Shopping MMLU contém 57 tarefas que abrangem quatro habilidades principais de compras: compreensão conceitual, raciocínio de conhecimento, alinhamento do comportamento do usuário e capacidades multilíngues, para que o potencial de grandes modelos de linguagem como assistentes de compras universais possa ser avaliado de forma abrangente.
Este Shopping MMLU não é um "exame" comum. Ele extrai 57 tarefas de dados reais de compras na Amazon, abrangendo quatro módulos principais: compreensão conceitual, raciocínio de conhecimento, alinhamento do comportamento do usuário e recursos multilíngues. Simplificando, trata-se de examinar se o assistente de IA pode entender suas necessidades e ajudá-lo a encontrar o bebê que deseja, como um verdadeiro guia de compras.
Os pesquisadores da Amazon testaram mais de 20 modelos de IA existentes com o Shopping MMLU e descobriram:
Esses modelos proprietários de IA bem conhecidos, como Claude-3Sonnet e ChatGPT, têm um desempenho muito bom e estão firmemente no primeiro escalão. No entanto, os modelos de IA de código aberto também estão se atualizando e têm o ímpeto para desafiar a “autoridade”.
Os resultados dos testes do Shopping MMLU também revelaram um fenômeno interessante: as compras online são, na verdade, um problema de aprendizagem multitarefa. Em outras palavras, o assistente de IA precisa dominar diversas habilidades ao mesmo tempo para poder realizar o trabalho.
O que é ainda mais surpreendente é que os modelos de IA que apresentam bom desempenho no campo geral também são igualmente bons no campo das compras online. Isso mostra que os assistentes de IA podem transferir conhecimentos gerais para áreas específicas e aprender novas habilidades rapidamente.
É claro que os assistentes de IA não são inerentemente perfeitos. Os pesquisadores descobriram que alguns métodos de treinamento de IA comumente usados, como o ajuste fino de instruções (IFT), podem levar ao ajuste excessivo do modelo em alguns casos, o que por sua vez afeta seu desempenho.
Além disso, o aprendizado rápido também é um grande desafio enfrentado pelos assistentes de IA. Isto significa que os assistentes de IA precisam aprender rapidamente quando enfrentam novas tarefas e nem sempre podem confiar em grandes quantidades de dados de treinamento.
Resumindo, o benchmark Shopping MMLU da Amazon aponta a direção para o desenvolvimento de assistentes de IA. No futuro, esperamos ver assistentes de IA de compras online mais inteligentes e humanos que tornarão nossa experiência de compra mais conveniente e agradável.
Os pesquisadores também descobriram alguns detalhes dignos de nota:
Shopping MMLU é mais complexo e desafiador do que outros conjuntos de dados de IA de compras online existentes.
O ajuste fino de instruções específicas de domínio nem sempre funciona bem e só funciona em modelos fortes que já possuem muito conhecimento geral.
Atualmente, mesmo os modelos de IA mais avançados não apresentam um desempenho tão bom em determinadas tarefas de compras online quanto os algoritmos projetados especificamente para essas tarefas.
Os resultados deste estudo mostram que ainda há um longo caminho a percorrer para construir um assistente de IA de compras online perfeito. As direções de pesquisa futuras incluem: desenvolver métodos de treinamento de IA mais eficazes, construir conjuntos de dados de IA de compras on-line mais diversificados e combinar modelos de IA com algoritmos específicos de tarefas para criar sistemas de IA híbridos mais poderosos.
Finalmente, os pesquisadores também apontaram abertamente algumas limitações do estudo:
Os dados do Shopping MMLU vêm principalmente da Amazon e podem não representar totalmente o comportamento do usuário de outras plataformas de comércio eletrônico.
Apesar dos esforços dos pesquisadores para evitá-lo, os dados do Shopping MMLU ainda podem conter alguns erros.
Em suma, esta pesquisa da Amazon abre as portas para a futura era das compras inteligentes. Acredito que, num futuro próximo, os assistentes de IA para compras online se tornarão uma parte indispensável de nossas vidas.
Endereço do artigo: https://arxiv.org/pdf/2410.20745
Dados e código de avaliação:
https://github.com/KL4805/ShoppingMMLU
Workshop KDD Cup 2024 e soluções da equipe vencedora:
https://amazon-kddcup24.github.io/
Lista de avaliação:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
Através do teste de benchmark Shopping MMLU lançado pela Amazon, podemos ter uma compreensão mais clara do status atual do aplicativo e da direção de desenvolvimento futuro de grandes modelos de linguagem na área de compras online. Esta investigação não só fornece uma referência valiosa para a melhoria dos modelos de IA, mas também aponta o caminho para melhorar a experiência de compra online dos utilizadores, anunciando a chegada de uma era de compras mais inteligente e conveniente.