Недавно исследователи из Стэнфордского университета и Университета Вашингтона успешно обучили модель вывода AI под названием S1, которая стоит всего 50 долларов. Производительность модели в тестировании математических и программирования сопоставима с моделью O1 OpenAI и моделью DeepSeek R1. Этот результат вызвал новое мышление о коммерциализации моделей искусственного интеллекта, а также вызвал опасения среди крупных лабораторий искусственного интеллекта.
Исследовательская группа извлекла необходимые возможности вывода из готовой базовой модели с помощью технологии дистилляции и обученной с использованием экспериментальной модели Google Gemini2.0 Flash Dinking Mondult. Этот процесс не только дешевый, но и быстрое обучение.
Тем не менее, крупные лаборатории ИИ недовольны явлением моделей недорогой репликации. Meta, Google и Microsoft планируют инвестировать сотни миллиардов долларов в ближайшие два года для обучения моделей ИИ следующего поколения для консолидации своей позиции на рынке.
Результаты исследований S1 показывают возможность достижения сильных показателей вывода посредством относительно небольших наборов данных и контролируемых методов тонкой настройки, которые также предоставляют новые направления для будущих исследований ИИ.
Бумага: https://arxiv.org/pdf/2501.19393
Код: https://github.com/simplescaling/s1
Ключевые моменты:
Стоимость обучения модели S1 меньше 50 долларов США, и ее производительность сопоставима с показателями моделей высшего вывода.
Благодаря технологии дистилляции исследовательская группа извлекает возможности рассуждения из готовых моделей, и процесс обучения быстрый и эффективный.
Крупные лаборатории ИИ выразили обеспокоенность по поводу ситуации недорогих моделей репликации, и инвестиции будут сосредоточены на инфраструктуре ИИ в будущем.