Последняя серия моделей Tülu3, выпущенная Институтом искусственного интеллекта Аллена (AI2), принесла впечатляющие прорывы в области языковых моделей с открытым исходным кодом. Tülu3 не только сравним по производительности с моделями с закрытым исходным кодом, такими как GPT-4o-mini, но, что более важно, он имеет полностью открытый исходный код и предоставляет комплексные данные обучения, код, рецепты обучения и структуры оценки, что имеет решающее значение для продвижения открытого кода. Разработка исходных моделей имеет важное значение. Он решает многие проблемы, существующие при практическом применении традиционных моделей предварительного обучения, такие как генерация вредной информации, трудности с выполнением инструкций и т. д., а также открывает новые возможности для исследований и применения в области искусственного интеллекта.
В области искусственного интеллекта технология постобучения постепенно становится важным средством повышения производительности моделей. Недавно Институт искусственного интеллекта Аллена (AI2) выпустил серию моделей Tülu3, которые представляют собой расширенную языковую модель с полностью открытым исходным кодом, производительность которой сопоставима с моделями с закрытым исходным кодом, такими как GPT-4o-mini. Tülu3 не только содержит данные модели, код и рецепты обучения, но также предоставляет структуру оценки, призванную способствовать развитию технологии постобучения моделей с открытым исходным кодом.
Традиционно предварительно обученные модели сами по себе часто неэффективны для удовлетворения практических потребностей приложений, могут выдавать токсичную или опасную информацию, и им трудно следовать инструкциям человека. Поэтому этапы после обучения, такие как точная настройка инструкций и обучение обратной связи с человеком, особенно важны. Однако то, как оптимизировать процесс постобучения, по-прежнему остается технической проблемой, особенно при улучшении одной способности модели это может повлиять на другие способности.
Чтобы решить эту проблему, крупные компании увеличили сложность методов постобучения, пробуя несколько раундов обучения и комбинируя искусственные и синтетические данные, но исходный код большинства методов по-прежнему остается закрытым. Напротив, выпуск серии Tülu3 преодолел разрыв в производительности между моделями с открытым и закрытым исходным кодом и принес новые идеи обучения.
Процесс обучения Tülu3 разделен на четыре этапа: построение данных, контролируемая точная настройка, корректировка предпочтений и обучение с подкреплением с проверяемыми вознаграждениями.
Во-первых, исследователи сосредотачиваются на основных навыках модели и создают обучающие данные, комбинируя искусственные данные с синтетическими данными.
Во-вторых, выполняется контролируемая точная настройка, чтобы гарантировать, что модель работает так же хорошо, как другие современные модели для конкретных навыков.
В-третьих, метод оптимизации прямых предпочтений используется для дальнейшего улучшения общей производительности модели. Наконец, представлен инновационный метод проверяемого обучения с подкреплением вознаграждения, который помогает модели лучше выполнять задачи с проверяемыми результатами.
Модель Tülu3 построена на основе Llama3.1 и имеет отличные показатели в таких областях, как рассуждение, математика, программирование и выполнение инструкций. По сравнению с другими моделями с открытым и закрытым исходным кодом, комплексные возможности Tülu3 хорошо работают во многих тестах, что знаменует собой значительный прогресс в технологии обучения после открытого исходного кода.
Ссылка на документ: https://allenai.org/papers/tulu-3-report.pdf.
Демо: https://playground.allenai.org/
Выделять:
? Tülu3 — это языковая модель с открытым исходным кодом, запущенная AI2, которая имеет производительность, сравнимую с моделями с закрытым исходным кодом, такими как GPT-4o-mini.
? Технология постобучения имеет решающее значение и может эффективно улучшить производительность модели в практических приложениях.
? Инновационный процесс обучения Tülu3 разделен на четыре этапа: построение данных, контролируемая точная настройка, корректировка предпочтений и поддающееся проверке обучение с подкреплением.
Открытый исходный код Tülu3 позволяет исследователям глубоко изучать его методы обучения и вносить на этой основе улучшения и инновации, что будет в значительной степени способствовать развитию языковых моделей с открытым исходным кодом. Его отличные показатели во многих областях также указывают на то, что модель с открытым исходным кодом будет играть более важную роль в будущем. Ожидается, что Tülu3 сможет и дальше способствовать популяризации и применению технологий искусственного интеллекта.