Большие языковые модели (LLM) сталкиваются с проблемами в сложных рассуждениях, поэтому появилась инновационная платформа с открытым исходным кодом под названием OpenR. OpenR, разработанный совместно исследователями из нескольких университетов, в том числе из Университетского колледжа Лондона, значительно улучшает возможности LLM для рассуждения за счет сочетания вычислений во время тестирования, обучения с подкреплением и контроля процессов. Он не только воспроизводит рассуждения передовых моделей, но и совершает прорывы на этой основе, предоставляя новые идеи для решения недостатков LLM в математике, программировании и научных проблемах. Редактор Downcodes даст вам глубокое понимание уникального дизайна и превосходной производительности платформы OpenR.
Недавно была запущена инновационная платформа с открытым исходным кодом под названием OpenR, целью которой является устранение недостатков больших языковых моделей (LLM) в сложных задачах рассуждения. Структура, совместно разработанная исследователями из Университетского колледжа Лондона, Ливерпульского университета, Шанхайского университета Цзяо Тонг, Гонконгского университета науки и технологий (Гуанчжоу) и Университета Вестлейк, открывает новые возможности для улучшения рассуждений студентов, имеющих степень магистра права, путем объединения Вычисления во время тестирования, обучение с подкреплением и контроль процессов. Новые способы.
Хотя LLM добились значительного прогресса в создании языков, они все еще сталкиваются с проблемами при решении сложных задач, таких как математика, программирование и научные проблемы. Появление OpenR призвано устранить этот разрыв и расширить возможности LLM от простой генерации текста до более сложных областей рассуждения.
Дизайн OpenR частично вдохновлен моделью o1 OpenAI, но его цель более амбициозна: не только воспроизвести возможности рассуждения продвинутых языковых моделей, но и добиться прорыва на этой основе. Будучи первым решением с открытым исходным кодом, обеспечивающим такую сложную поддержку рассуждений, OpenR фокусируется на сборе данных, моделях вознаграждения процессов и эффективных методах рассуждения, стремясь ускорить разработку крупномасштабных языковых моделей, ориентированных на рассуждения.
Примечание к источнику изображения: изображение генерируется искусственным интеллектом и разрешено поставщиком услуг Midjourney.
Основная структура структуры вращается вокруг увеличения данных, изучения политики и руководства по обоснованию в сочетании с многосторонним исследованием. OpenR использует процесс принятия решений Маркова (MDP) для моделирования задач рассуждения, разлагая сложный процесс рассуждения на ряд шагов, которые можно оценить и оптимизировать. Этот метод не только напрямую развивает навыки рассуждения, но и исследует несколько путей рассуждения на каждом этапе, что значительно повышает надежность процесса рассуждения.
Еще одной ключевой особенностью платформы является модель вознаграждения за процесс (PRM), которая обеспечивает подробную обратную связь для промежуточных шагов рассуждения, позволяя модели более точно корректировать решения, а не полагаться исключительно на суждения об окончательном результате. Это детальное руководство значительно повышает эффективность обучения модели.
В реальных тестах OpenR продемонстрировал впечатляющую производительность. Если принять набор данных MATH в качестве эталона, точность вывода OpenR примерно на 10% выше, чем у традиционных методов. Исследование также показало, что методы многопутевого исследования, такие как Best-of-N и Beam Search, значительно лучше, чем простые методы голосования большинством, особенно когда вычислительные ресурсы ограничены.
Технологии обучения с подкреплением OpenR, особенно те методы, которые используют PRM, хорошо работают в сценариях онлайн-обучения политике и способствуют постоянному совершенствованию способностей LLM к рассуждению. Этот результат показывает, что благодаря тщательно разработанным стратегиям обучения студенты LLM имеют потенциал для достижения прорывного прогресса в решении сложных задач рассуждения.
Будучи платформой с открытым исходным кодом, OpenR предоставляет исследователям и разработчикам ценные ресурсы для совместной работы над расширением возможностей рассуждения языковой модели. Это не только обеспечивает путь обновления для существующих LLM, но и прокладывает путь к более умным и способным к рассуждению системам искусственного интеллекта в будущем.
Заглядывая в будущее, команда OpenR планирует и дальше расширять функциональность платформы, чтобы охватить более широкий спектр типов задач вывода, а также продолжать оптимизировать процесс вывода. Ожидается, что эти усилия внесут важный вклад в долгосрочную цель самосовершенствования мыслящих агентов ИИ.
Адрес проекта: https://github.com/facebook/openr
В целом, появление платформы OpenR открывает новые возможности для прорывов в больших языковых моделях в области сложных рассуждений. Ее функция открытого исходного кода также облегчает участие большего числа исследователей и разработчиков для совместного продвижения прогресса технологий искусственного интеллекта. Мы надеемся, что OpenR достигнет более значительных результатов в будущем и внесет свой вклад в создание более интеллектуальных систем искусственного интеллекта.