Исследовательская группа Amazon выпустила Shopping MMLU, многозадачный тест онлайн-покупок, основанный на реальных данных Amazon, предназначенный для всесторонней оценки потенциала больших языковых моделей (LLM) в качестве общего помощника при совершении покупок. Тест содержит 57 задач, охватывающих четыре модуля: понимание концепций, обоснование знаний, согласование поведения пользователей и многоязычные возможности, чтобы проверить, может ли ИИ-помощник понимать потребности пользователей, как настоящий гид по покупкам, и предоставлять точные услуги. Тестируя более 20 моделей искусственного интеллекта, Shopping MMLU раскрывает природу многозадачного обучения онлайн-покупок и указывает на проблемы, с которыми существующие модели искусственного интеллекта сталкиваются при применении в конкретных областях, такие как переобучение при точной настройке инструкций и сложность выполнения нескольких шагов. обучение. .
Машинное обучение уже проникло в различные онлайн-сервисы, и онлайн-шопинг — одна из самых успешных сфер. В последние годы машинное обучение применяется для решения различных задач онлайн-покупок, таких как запросы пользователей, записи просмотров, анализ обзоров, извлечение атрибутов продукта и т. д. Чтобы способствовать развитию методов машинного обучения, было разработано множество тестов, позволяющих снизить порог, позволяющий исследователям и инженерам разрабатывать и оценивать новые решения для реальных задач онлайн-покупок.
Однако существующие модели и тесты часто адаптированы для конкретных задач и не могут полностью охватить сложность онлайн-покупок. Большие языковые модели (LLM) с их многозадачностью и возможностями обучения за несколько шагов могут революционизировать процесс онлайн-покупок за счет сокращения инженерных усилий для решения конкретных задач и предоставления пользователям интерактивного общения. Несмотря на свой большой потенциал, крупномасштабные языковые модели также сталкиваются с уникальными проблемами в сфере онлайн-покупок, такими как специфичные для предметной области концепции покупок, неявные знания и неоднородное поведение пользователей.
Чтобы решить эти проблемы, исследователи Amazon предложили Shopping MMLU — многозадачный тест онлайн-покупок, основанный на реальных данных Amazon. MMLU для покупок содержит 57 задач, охватывающих 4 основных навыка совершения покупок: концептуальное понимание, обоснование знаний, согласование поведения пользователя и многоязычные возможности, поэтому можно всесторонне оценить потенциал больших языковых моделей в качестве универсальных помощников при совершении покупок.
Этот MMLU для покупок — это не обычный «экзамен». Он извлекает 57 заданий из реальных данных о покупках на Amazon и охватывает четыре основных модуля: концептуальное понимание, обоснование знаний, согласование поведения пользователей и многоязычные возможности. Проще говоря, это проверка того, может ли ИИ-помощник понять ваши потребности и помочь вам найти нужного ребенка, как настоящий гид по покупкам.
Исследователи Amazon протестировали более 20 существующих моделей искусственного интеллекта с помощью Shopping MMLU и обнаружили:
Такие известные проприетарные модели искусственного интеллекта, как Claude-3Sonnet и ChatGPT, работают очень хорошо и прочно находятся в первом эшелоне. Однако модели искусственного интеллекта с открытым исходным кодом также догоняют их и имеют импульс бросить вызов «авторитету».
Результаты тестирования Shopping MMLU также выявили интересный феномен: покупки в Интернете на самом деле представляют собой многозадачную задачу обучения. Другими словами, ИИ-помощнику необходимо освоить несколько навыков одновременно, чтобы иметь возможность выполнять работу.
Что еще более удивительно, так это то, что те модели искусственного интеллекта, которые хорошо работают в общей области, также одинаково хороши и в сфере онлайн-покупок. Это показывает, что ИИ-помощники могут переносить общие знания в конкретные области и быстро осваивать новые навыки.
Конечно, ИИ-помощники не идеальны по своей сути. Исследователи обнаружили, что некоторые широко используемые методы обучения ИИ, такие как точная настройка инструкций (IFT), в некоторых случаях могут привести к переобучению модели, что, в свою очередь, влияет на ее производительность.
Кроме того, обучение за несколько шагов также является серьезной проблемой, с которой сталкиваются помощники ИИ. Это означает, что ИИ-помощникам необходимо быстро учиться, когда они сталкиваются с новыми задачами, и они не всегда могут полагаться на большие объемы обучающих данных.
Короче говоря, тест Amazon Shopping MMLU указывает направление развития ИИ-помощников. В будущем мы с нетерпением ждем появления более умных и гуманных ИИ-помощников в онлайн-шоппинге, которые сделают наш опыт покупок более удобным и приятным.
Исследователи также обнаружили некоторые детали, которые стоит отметить:
MMLU для покупок является более сложным и сложным, чем другие существующие наборы данных искусственного интеллекта для онлайн-покупок.
Точная настройка инструкций, специфичных для предметной области, не всегда работает хорошо и работает только на надежных моделях, у которых уже есть много общих знаний.
В настоящее время даже самые продвинутые модели искусственного интеллекта не так хорошо справляются с некоторыми задачами онлайн-покупок, как алгоритмы, специально разработанные для этих задач.
Результаты этого исследования показывают, что до создания идеального ИИ-помощника для онлайн-покупок еще предстоит пройти долгий путь. Будущие направления исследований включают в себя: разработку более эффективных методов обучения ИИ, создание более разнообразных наборов данных ИИ для онлайн-покупок и объединение моделей ИИ с алгоритмами для конкретных задач для создания более мощных гибридных систем ИИ.
Наконец, исследователи также откровенно указали на некоторые ограничения исследования:
Данные в Shopping MMLU в основном поступают от Amazon и могут не полностью отражать поведение пользователей других платформ электронной коммерции.
Несмотря на усилия исследователей избежать этого, данные Shopping MMLU все еще могут содержать некоторые ошибки.
В целом, исследование Amazon открывает дверь в будущую эру умных покупок. Я верю, что в ближайшем будущем ИИ-помощники в онлайн-шопинге станут незаменимой частью нашей жизни.
Адрес статьи: https://arxiv.org/pdf/2410.20745.
Данные и код оценки:
https://github.com/KL4805/ShoppingMMLU
Семинар KDD Cup 2024 и решения команды-победителя:
https://amazon-kddcup24.github.io/
Оценочный список:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
Благодаря эталонному тесту Shopping MMLU, запущенному Amazon, мы можем получить более четкое представление о текущем состоянии приложений и будущем направлении развития больших языковых моделей в сфере онлайн-покупок. Это исследование не только предоставляет ценные рекомендации по улучшению моделей искусственного интеллекта, но и указывает путь к улучшению опыта онлайн-покупок для пользователей, предвещая наступление более умной и удобной эры покупок.