Крупная модель R1, исходный код которой открыт китайской командой DeepSeek, продемонстрировала впечатляющие преимущества с точки зрения производительности и стоимости, привлекая широкое внимание мирового технологического сообщества. Он превзошел модель o1 OpenAI во многих авторитетных тестах, особенно в области математики и программирования. Он выделяется чрезвычайно низкими затратами и стал темной лошадкой в области больших моделей с открытым исходным кодом. Открытый исходный код R1 не только демонстрирует прорыв Китая в области технологий больших моделей, но и придаёт новую жизнь глобальному развитию искусственного интеллекта.
Текст: Недавно китайская команда DeepSeek выпустила свою последнюю большую модель R1 с открытым исходным кодом, которая привлекла всеобщее внимание. Производительность модели R1 чрезвычайно хороша: она превосходит модель o1 OpenAI во многих тестах, особенно в математических и программных оценках.
В последнем американском тесте AIME2024 R1 набрал 79,8 балла, превзойдя результат o1 в 79,2 балла. В тесте MATH-500 R1 набрал 97,3 балла, также опередив o1 с 96,4 балла. Кроме того, в тесте SWE-bench Verified R1 набрал 49,2 балла, что также превысило показатель o1 48,9 балла. Хотя в тесте кода Codeforces R1 всего на 0,3 балла ниже, чем o1, общая производительность эквивалентна модели o1.
Помимо производительности, еще более привлекательным является ценовое преимущество R1. Модель OpenAI o1 имеет входную плату до 15 долларов США за 1 миллион токенов, тогда как стоимость R1 составляет всего 0,14 доллара США, что означает снижение затрат на 90%. Что касается вывода, комиссия o1 составляет 60 долларов США за 1 миллион токенов, тогда как R1 стоит всего 2,19 доллара США, что означает снижение в 27 раз. Эта огромная разница в стоимости выделяет R1 среди крупных моделей с открытым исходным кодом.
После того, как команда DeepSeek объявила, что R1 имеет открытый исходный код, многие иностранные пользователи сети выразили свое восхищение этой моделью, полагая, что R1 превосходит устоявшиеся платформы с открытым исходным кодом, такие как Meta и Mistral, с точки зрения затрат и производительности. Многие говорят, что эффективные логические способности модели R1 делают ее превосходной для написания кода и математических объяснений. Некоторые пользователи даже называют ее «моделью, которая больше всего напоминает внутренний монолог человека». В то же время исследователь машинного обучения Apple Ауни Ханнун также протестировал R1 и обнаружил, что он работает быстро и имеет высокую эффективность вывода на Apple M2Ultra.
Разработка модели R1 прошла многоэтапный процесс обучения, включая данные холодного запуска и многоэтапное обучение для улучшения ее возможностей вывода и читаемости. Эти технические улучшения обеспечивают превосходную производительность модели R1 при выполнении различных задач.
С выпуском R1 крупная китайская модель с открытым исходным кодом снова привлекла большое внимание и дискуссию на международном рынке, и многие энтузиасты технологий выразили ожидания относительно потенциала этой модели. Выпуск R1 знаменует собой дальнейший прорыв Китая в области технологий больших моделей и способствует развитию технологий с открытым исходным кодом.
Адрес открытого исходного кода: https://huggingface.co/deepseek-ai/R1
API: https://api-docs.deepseek.com/guides/reasoning_model
Выделять:
Модель R1 превзошла модель o1 OpenAI в нескольких тестах, показав отличную производительность.
Затраты на ввод и вывод R1 составляют всего 0,14 и 2,19 доллара США соответственно, что означает снижение затрат на 90%.
R1 привлек широкое внимание, поскольку его исходный код был открыт. Многие зарубежные эксперты высоко оценили его производительность и считали его чрезвычайно экономичным.
Появление R1 не только предоставляет разработчикам мощный инструмент с высокой производительностью и низкой стоимостью, но также предвещает продолжающиеся инновации Китая и повышение конкурентоспособности в области искусственного интеллекта. Мы с нетерпением ждем, когда R1 принесет прорывы в большем количестве областей в будущем.