El equipo de investigación de Amazon lanzó Shopping MMLU, un punto de referencia de compras en línea multitarea basado en datos reales de Amazon, diseñado para evaluar de manera integral el potencial de los modelos de lenguaje grande (LLM) como asistente de compras general. El punto de referencia contiene 57 tareas, que cubren cuatro módulos: comprensión de conceptos, razonamiento de conocimientos, alineación del comportamiento del usuario y capacidades multilingües, para examinar si el asistente de IA puede comprender las necesidades del usuario como una guía de compras real y brindar servicios precisos. Al probar más de 20 modelos de IA, Shopping MMLU revela la naturaleza de aprendizaje multitarea de las compras en línea y señala los desafíos que enfrentan los modelos de IA existentes en su aplicación en campos específicos, como el sobreajuste en el ajuste de las instrucciones y la dificultad de realizar pocas tomas. aprendiendo. .
El aprendizaje automático ya ha penetrado en varios servicios en línea, y las compras en línea son una de las áreas de mayor éxito. En los últimos años, el aprendizaje automático se ha aplicado a diversas tareas de compra online, como consultas de usuarios, registros de navegación, análisis de reseñas, extracción de atributos de productos, etc. Para promover el desarrollo de métodos de aprendizaje automático, se han desarrollado muchos puntos de referencia para reducir el umbral para que investigadores e ingenieros desarrollen y evalúen soluciones novedosas para tareas reales de compra en línea.
Sin embargo, los modelos y puntos de referencia existentes a menudo están diseñados para tareas específicas y no pueden capturar completamente la complejidad de las compras en línea. Los modelos de lenguajes grandes (LLM), con sus capacidades de aprendizaje multitarea y de pocas tomas, tienen el potencial de revolucionar la experiencia de compra en línea al reducir el esfuerzo de ingeniería para tareas específicas y brindar a los usuarios conversaciones interactivas. A pesar de su gran potencial, los modelos lingüísticos a gran escala también enfrentan desafíos únicos en el ámbito de las compras en línea, como conceptos de compra específicos de un dominio, conocimiento tácito y comportamientos heterogéneos de los usuarios.
Para abordar estos desafíos, los investigadores de Amazon propusieron Shopping MMLU, un punto de referencia de compras en línea multitarea basado en datos reales de Amazon. Shopping MMLU contiene 57 tareas que cubren 4 habilidades de compra principales: comprensión conceptual, razonamiento de conocimientos, alineación del comportamiento del usuario y capacidades multilingües, por lo que se puede evaluar de manera integral el potencial de los grandes modelos lingüísticos como asistentes de compras universales.
Este Shopping MMLU no es un "examen" ordinario. Extrae 57 tareas de datos reales de compras en Amazon, que cubren cuatro módulos principales: comprensión conceptual, razonamiento de conocimientos, alineación del comportamiento del usuario y capacidades en varios idiomas. En pocas palabras, se trata de examinar si el asistente de IA puede comprender sus necesidades y ayudarlo a encontrar el bebé que desea como una verdadera guía de compras.
Los investigadores de Amazon probaron más de 20 modelos de IA existentes con Shopping MMLU y encontraron:
Esos modelos patentados de IA tan conocidos, como Claude-3Sonnet y ChatGPT, funcionan muy bien y están firmemente en el primer escalón. Sin embargo, los modelos de IA de código abierto también se están poniendo al día y tienen el impulso para desafiar la "autoridad".
Los resultados de las pruebas de Shopping MMLU también revelaron un fenómeno interesante: las compras en línea son en realidad un problema de aprendizaje que requiere múltiples tareas. En otras palabras, el asistente de IA necesita dominar múltiples habilidades al mismo tiempo para poder realizar el trabajo.
Lo que es aún más sorprendente es que los modelos de IA que funcionan bien en el campo general también lo son en el campo de las compras en línea. Esto demuestra que los asistentes de IA pueden transferir conocimientos generales a campos específicos y aprender rápidamente nuevas habilidades.
Por supuesto, los asistentes de IA no son intrínsecamente perfectos. Los investigadores han descubierto que algunos métodos de entrenamiento de IA comúnmente utilizados, como el ajuste fino de instrucciones (IFT), pueden conducir a un sobreajuste del modelo en algunos casos, lo que a su vez afecta su rendimiento.
Además, el aprendizaje en pocas oportunidades también es un desafío importante al que se enfrentan los asistentes de IA. Esto significa que los asistentes de IA necesitan aprender rápidamente cuando se enfrentan a nuevas tareas y no siempre pueden depender de grandes cantidades de datos de entrenamiento.
En resumen, el punto de referencia Shopping MMLU de Amazon señala la dirección para el desarrollo de asistentes de IA. En el futuro, esperamos ver asistentes de inteligencia artificial para compras en línea más inteligentes y humanos que harán que nuestra experiencia de compra sea más cómoda y agradable.
Los investigadores también descubrieron algunos detalles dignos de mención:
Shopping MMLU es más complejo y desafiante que otros conjuntos de datos de IA de compras en línea existentes.
El ajuste de instrucciones específicas de un dominio no siempre funciona bien y solo funciona en modelos sólidos que ya tienen mucho conocimiento general.
Actualmente, incluso los modelos de IA más avanzados no funcionan tan bien en determinadas tareas de compra online como los algoritmos diseñados específicamente para estas tareas.
Los resultados de este estudio muestran que todavía queda un largo camino por recorrer para crear un asistente de inteligencia artificial para compras en línea perfecto. Las direcciones de investigación futuras incluyen: desarrollar métodos de entrenamiento de IA más efectivos, construir conjuntos de datos de IA de compras en línea más diversos y combinar modelos de IA con algoritmos de tareas específicas para crear sistemas de IA híbridos más potentes.
Finalmente, los investigadores también señalaron con franqueza algunas limitaciones del estudio:
Los datos de Shopping MMLU provienen principalmente de Amazon y es posible que no representen completamente el comportamiento del usuario de otras plataformas de comercio electrónico.
A pesar de los esfuerzos de los investigadores por evitarlo, los datos de Shopping MMLU aún pueden contener algunos errores.
En definitiva, esta investigación de Amazon abre la puerta a la futura era de las compras inteligentes. Creo que en un futuro próximo, los asistentes de inteligencia artificial para compras en línea se convertirán en una parte indispensable de nuestras vidas.
Dirección del artículo: https://arxiv.org/pdf/2410.20745
Datos y código de evaluación:
https://github.com/KL4805/ShoppingMMLU
Taller de la Copa KDD 2024 y soluciones del equipo ganador:
https://amazon-kddcup24.github.io/
Lista de evaluación:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
A través de la prueba comparativa Shopping MMLU lanzada por Amazon, podemos tener una comprensión más clara del estado actual de la aplicación y la dirección de desarrollo futuro de grandes modelos lingüísticos en el campo de las compras en línea. Esta investigación no solo proporciona una referencia valiosa para la mejora de los modelos de IA, sino que también señala el camino para mejorar la experiencia de compra en línea de los usuarios, presagiando la llegada de una era de compras más inteligente y conveniente.