Редактор Downcodes узнал, что команда Shanghai AI Lab открыла исходный код проекта LLaMA версии o1. Это потрясающая новость! Этот проект направлен на воспроизведение o1 от OpenAI, математического артефакта для решения головоломок, и добился значительного прогресса. Команда умело использовала передовые технологии, такие как поиск по дереву Монте-Карло и обучение с подкреплением, чтобы превзойти многие решения с закрытым исходным кодом в тесте производительности AIME2024, продемонстрировав сильную техническую мощь и дух открытого исходного кода. Проект с открытым исходным кодом содержит предварительно обученные наборы данных, модели и обучающий код, предоставляя разработчикам ценные ресурсы для обучения.
Задолго до выпуска серии o1 от OpenAI команда Шанхайской лаборатории искусственного интеллекта начала изучать использование поиска по дереву Монте-Карло для улучшения математических возможностей больших моделей. После выпуска o1 команда дополнительно модернизировала алгоритм, сосредоточившись на задачах математических олимпиад, и разработала его как версию с открытым исходным кодом проекта OpenAI Strawberry Project.
Чтобы улучшить производительность модели LLaMA при решении задач математической олимпиады, команда приняла стратегию парной оптимизации, которая не дает напрямую абсолютную оценку ответа, а сравнивает относительные достоинства двух ответов. Благодаря такому подходу они добились значительных улучшений в самом сложном тесте AIME2024. Среди 30 тестовых вопросов оптимизированная модель ответила правильно на 8 вопросов, тогда как исходная модель LLaMA-3.1-8B-Instruct ответила правильно только на 2 вопроса. Это достижение превосходит другие коммерческие решения с закрытым исходным кодом, за исключением o1-preview и o1-mini.
В конце октября команда объявила, что добилась значительного прогресса в воспроизведении OpenAI o1 на основе архитектуры AlphaGo Zero, что позволило модели приобрести расширенные возможности мышления за счет взаимодействия с деревом поиска в процессе обучения без ручного аннотирования. Менее чем за неделю проект был открыт.
В настоящее время содержимое с открытым исходным кодом LLaMA версии o1 включает в себя: наборы данных для предварительного обучения, модели для предварительного обучения и код обучения с подкреплением. Среди них набор данных «OpenLongCoT-Pretrain» содержит более 100 000 данных длинной цепочки мышления. Каждый фрагмент данных содержит полный процесс рассуждения математической задачи, включая содержание размышления, результаты оценки, описание проблемы, графические координаты, процесс расчета и заключение. Полные ссылки на рассуждения, а также содержание критики и проверки каждого шага рассуждения обеспечивают оценку и руководство для процесса рассуждения. После продолжения предварительного обучения на этом наборе данных модель может прочитать и вывести процесс длинной мыслительной цепочки, например o1.
Хотя проект называется LLaMA-O1, официально предоставляемая в настоящее время модель предварительного обучения основана на Google Gemma2. На основе предварительно обученной модели разработчики могут продолжить обучение с подкреплением. Процесс обучения включает в себя: использование поиска по дереву Монте-Карло для самостоятельного воспроизведения опыта; сохранение опыта в буфере воспроизведения приоритетного опыта; выборку пакетных данных из буфера для обновления параметров модели и приоритета опыта; В обучающем коде также используются некоторые ключевые технологии, в том числе использование LoRA для эффективной точной настройки параметров, использование алгоритма PPO в качестве метода оптимизации стратегии, реализация алгоритма GAE для расчета функции преимущества и использование воспроизведения приоритетного опыта для улучшения обучения. эффективность.
Стоит отметить, что код LLaMA-O1 был выпущен под учетной записью GitHub под названием SimpleBerry. Эта учетная запись не имеет специального представления и выглядит относительно загадочной. Из других аккаунтов и информации официального сайта, связанной с SimpleBerry, видно только, что по своей природе она представляет собой исследовательскую лабораторию, но больше никакой информации о направлении исследований не раскрывается.
Помимо LLaMA-O1, еще одним проектом реплики o1, получившим общественный прогресс, является O1-Journey от команды Шанхайского университета Цзяо Тонг. В начале октября команда опубликовала свой первый отчет о ходе работы, представив инновационную парадигму Journey Learning и первую модель, позволяющую успешно интегрировать поиск и обучение в математические рассуждения. Основная команда разработчиков O1-Journey в основном состоит из студентов младших и старших курсов Шанхайского университета Цзяо Тонг, а также аспирантов первого курса лаборатории GAIR (Лаборатория исследований генеративного искусственного интеллекта) Шанхайского университета Цзяо Тонг. Преподаватели. Среди них Лю Пэнфэй и Яо Бан, доценты Шанхайского университета Цзяо Тун, выпускник и лауреат премии Слоана Ли Юаньчжи и т. д.
Адрес статьи: https://arxiv.org/pdf/2410.02884.
https://arxiv.org/pdf/2406.07394
Открытый исходный код проекта LLaMA версии o1 вдохнул новую жизнь в область решения математических задач ИИ, а также предоставил разработчикам ценные ресурсы для обучения и исследований. Мы с нетерпением ждем появления в будущем новых подобных проектов с открытым исходным кодом, которые будут способствовать постоянному развитию области искусственного интеллекта!