Редактор Downcodes узнал, что исследователи Apple запустили новый эталонный тест под названием GSM-Symbolic для проверки возможностей математических рассуждений больших языковых моделей (LLM). Этот тест основан на GSM8K и предназначен для более полной оценки рассуждений LLM, а не только на его вероятностном сопоставлении с образцом. Хотя GSM8K популярен, у него есть такие проблемы, как загрязнение данных и колебания производительности. GSM-Symbolic преодолевает эти недостатки, генерируя разнообразные математические задачи из символических шаблонов, обеспечивая гарантию более точной оценки.
Недавно исследователи Apple провели углубленное исследование возможностей математических рассуждений моделей большого языка (LLM) и запустили новый тест под названием GSM-Symbolic.
Этот новый тест разработан на основе GSM8K, который в основном используется для оценки базовых математических способностей. Хотя производительность многих LLM улучшилась в GSM8K, у научного сообщества все еще есть вопросы по поводу логических возможностей этих моделей, полагая, что существующие показатели оценки могут не полностью отражать их истинные возможности. Исследования показали, что LLM часто полагаются на вероятностное сопоставление с образцом, а не на истинное логическое рассуждение, что делает их очень чувствительными к небольшим изменениям входных данных.
В новом исследовании исследователи использовали символические шаблоны для создания разнообразных математических задач, которые обеспечивают более надежные оценки. Экспериментальные результаты показывают, что производительность LLM значительно снижается с увеличением численного значения или сложности проблемы. Более того, даже добавление информации, которая на первый взгляд имеет отношение к проблеме, но на самом деле не является несущественной, может привести к снижению производительности модели до 65%. Эти результаты еще раз подтверждают, что LLM больше полагается на сопоставление с образцом, а не на формальные логические рассуждения при рассуждениях.
Набор данных GSM8K содержит более 8000 математических задач уровня обучения, и его популярность порождает ряд рисков, таких как загрязнение данных и колебания производительности, вызванные небольшими изменениями задач. Чтобы справиться с этими проблемами, появление GSM-Symbolic позволяет эффективно контролировать разнообразие проблем. Этот тест оценивает более 20 открытых и закрытых моделей с использованием 5000 образцов из 100 шаблонов, демонстрируя понимание и ограничения возможностей математического рассуждения LLM.
Предварительные эксперименты показывают, что производительность разных моделей на GSM-Symbolic значительно различается, а общая точность ниже заявленной производительности на GSM8K. В исследовании дополнительно изучалось влияние изменения имен и значений переменных на LLM, и результаты показали, что изменения значений оказали большее влияние на производительность. Кроме того, сложность проблемы также напрямую влияет на точность, а сложные проблемы приводят к значительному снижению производительности. Эти результаты показывают, что модель может больше полагаться на сопоставление с образцом, чем на истинные способности к рассуждению при решении математических задач.
В этом исследовании подчеркиваются ограничения текущих оценок GSM8K и вводится новый тест GSM-Symbolic, предназначенный для оценки возможностей математических рассуждений LLM. В целом, результаты показывают, что студентам LLM все еще необходимо совершенствовать свои способности к логическому рассуждению при решении сложных проблем.
Статья: https://arxiv.org/abs/2410.05229.
В целом, тест GSM-Symbolic, предложенный Apple, открывает новую перспективу для оценки возможностей математических рассуждений больших языковых моделей. Он также показывает, что LLM еще есть возможности для улучшения логических рассуждений, что указывает путь для будущих улучшений моделей. Мы с нетерпением ожидаем дальнейших исследований в будущем, которые будут способствовать дальнейшему развитию способностей LLM к рассуждению.