Недавно выпущенные модели Deepseek Deepseek-V3 и Deepseek-R1 вызвали огромный отклик в области искусственного интеллекта. В частности, DeepSeek-R1 модели с открытым исходным кодом и раскрывает все технологии обучения, что привлекло широкое внимание в отрасли, а также оказало большое давление на такие компании, как Meta. Мета -инженеры даже публично заявили, что команда была в панике и пыталась повторить технологию Deepseek.
Серия моделей, недавно выпущенная DeepSeek, вызвала шок в глобальном круге ИИ. DeepSeek-V3 достигает высокой производительности при низкой стоимости и сравнимой с моделью с закрытым исходным кодом во многих обзорах; Это также открытый исходный код.
DeepSeek также раскрывает все методы обучения. R1 находится в сравнении с моделью O1 Openai, а технология обучения в области подкрепления широко используется на стадии после тренировки. DeepSeek сказал, что R1 сравнимо с O1 в таких задачах, как математика, код, рассуждения о естественном языке и цена API составляет менее 4% от O1.
Недавно TeamBlind, анонимный пост от сотрудников Meta в анонимном сообществе на рабочем месте за границей, был особенно популярен. Запуск DeepSeek V3 ставит Llama 4 в тестах, а команда Meta Generative AI находится в панике. «Неизвестная китайская компания» имеет бюджет в размере 5,5 миллионов долларов для завершения обучения и пощечивания существующей большой модели на лице.
Мета инженеры лихорадочно демонтируют Deepseek и пытаются копировать, в то время как руководство беспокоит, как объяснить высокие затраты для старшего руководства. Появление DeepSeek R1 усугубляет ситуацию, и, хотя некоторая информация еще не может быть раскрыта, она скоро будет обнародована, и к тому времени ситуация может быть еще более неблагоприятной.
Перевод анонимного поста сотрудников Meta заключается в следующем (перевод Deepseek R1):
Мета генеративного департамента искусственного интеллекта входит в чрезвычайное положение
Все началось с DeepSeek V3 - это сделало оценку эталона Llama 4 мгновенно выглядеть устаревшим. Что еще более смущает, так это то, что «неизвестная китайская компания достигла такого прорыва с бюджетом на обучение всего 5 миллионов долларов».
Команда инженеров отчаянно демонтирует архитектуру Deepseek, пытаясь повторить все ее технические детали. Это ни в коем случае не преувеличение, наша кодовая база проходит поиск в стиле ковров.
Руководство умирает о рациональности огромных расходов департамента. Когда годовая зарплата каждого «лидера» в генеративном отделе ИИ превышает всю стоимость обучения DeepSeek V3, и у нас есть десятки таких «лидеров», как они должны объяснить старшему руководству?
DeepSeek R1 делает ситуацию еще более серьезной. Хотя конфиденциальная информация не может быть раскрыта, соответствующие данные скоро будут обнародованы.
Это должна быть способная команда, ориентированная на технологию, но организационная структура была намеренно расширена из-за притока большого количества людей для влияния. Результат этой игры престолов? В конце концов, все стали неудачниками.
Введение в модели серии DeepSeekDeepSeek-V3: это гибридная экспертная языковая модель (MOE), с суммой параметра 671b, и каждый токен активирует 37b. Он принимает многопользовательское скрытое внимание (MLA) и архитектуру Deepseekmoe, предварительно обученную на 14,8 триллиона высококачественных токенов. Модели -4o и Claude 3.5 Top с закрытым исходным кодом, такие как сонет, имеют сопоставимую производительность. Стоимость обучения составляет низкую, всего 2,788 миллиона часов H800, около 5,576 миллиона долларов США, а процесс обучения стабилен.
DeepSeek-R1: включает в себя DeepSeek-R1-Zero и Deepseek-R1. Благодаря крупномасштабному обучению обучения подкреплению, DeepSeek-R1-Zero демонстрирует самоуверенную, размышления и другие способности с помощью крупномасштабного обучения подкреплению обучения и не полагается на точную настройку (SFT), но есть проблемы, такие как бедные читаемость и языковая путаница. Основываясь на DeepSeek-R1, DeepSeek-R1 представляет многоэтапные данные и холодные данные, которые решают некоторые проблемы. В то же время было открыто несколько моделей с различными шкалами параметров, чтобы способствовать развитию сообщества с открытым исходным кодом.
Отличная производительность: DeepSeek-V3 и DeepSeek-R1 хорошо показали в нескольких тестах. Например, DeepSeek-V3 достигли отличных результатов в MMLU, Drop и других оценках; Полем
Обучение инноваций:
DeepSeek-V3 принимает стратегии балансировки нагрузки без вспомогательных потерь и целей предсказания с несколькими точками (MTP), чтобы снизить деградацию производительности и улучшить производительность модели;
DeepSeek-R1-Zero использует чистое обучение подкреплению и полагаться исключительно на простые сигналы вознаграждения и наказания для оптимизации модели, что доказывает, что обучение подкреплению может улучшить способность к выводу модели; Стабильность и читаемость.
Обмен открытым исходным кодом: модели серии DeepSeek придерживаются концепции с открытым исходным кодом и веса модели с открытым исходным кодом, такие как DeepSeek-V3 и DeepSeek-R1 и их небольшие дистиллированные модели, позволяя пользователям обучать другие модели с помощью технологии дистилляции для продвижения общения и инноваций в ИИ технология.
Многодоменные преимущества: DeepSeek-R1 демонстрирует свои мощные возможности в нескольких областях. и задачи поколения.
Высокая производительность: модель DeepSeek Series Model API доступна по цене. Например, входная и выходная цена API DeepSeek-V3 намного ниже, чем аналогичные модели;
Задачи обработки естественного языка: включая генерацию текста, систему вопросов и ответов, машинный перевод, резюме текста и т. Д. Например, в системе вопросов и ответов DeepSeek-R1 может понять проблему и использовать способность рассуждать точные ответы;
Разработка кода: Помогите разработчикам писать код, программы отладки и понять логику кода. Например, когда разработчики сталкиваются с проблемами кода, DeepSeek-R1 может анализировать код и предоставлять решения;
Решение математических задач: решить сложные математические задачи в математическом образовании, научных исследованиях и других сценариях. Как и DeepSeek-R1, он хорошо справляется с вопросами, связанными с конкуренцией AIME и может использоваться для того, чтобы помочь студентам в изучении математики и исследователей в решении проблем математики.
Модельные исследования и разработки: предоставляет ссылки и инструменты для исследователей искусственного интеллекта для изучения дистилляции модели, улучшенной структуры модели и методов обучения. Исследователи могут проводить эксперименты на основе модели DeepSeek с открытым исходным кодом для изучения новых технологических направлений.
Вспомогательное принятие решений: данные обработки и информация и предоставление советов по принятию решений в области бизнеса, финансов и т. Д. Например, анализ рыночных данных для предоставления справочников для сформулирования маркетинговых стратегий;
Посетите платформу: пользователи могут войти на официальный веб -сайт DeepSeek (https://www.deepseek.com/), чтобы войти в платформу.
Выберите модель: На официальном веб-сайте или в приложении диалог по умолчанию обусловлен DeepSeek-V3. Если вызван через API, установите соответствующие параметры модели в коде в соответствии с требованиями, такими как установка Model = 'DeepSeek-Reasoner' при использовании DeepSeek-R1.
Входные задачи: введите задачи, описанные на естественном языке в интерфейсе диалога, такие как «написание любовного романа», «Объяснение функции этого кода», «Решение математических уравнений» и т. Д. к спецификациям API и добавьте связанную с задачей информацию, передаваемую в качестве входных параметров.
Получите результаты: после того, как модель обрабатывает задачу, верните результаты, просмотрите сгенерированный текст, отвечает на вопросы и т. Д. На интерфейсе;
ЗаключениеМодели серии DeepSeek достигли замечательных результатов в области ИИ с их выдающейся эффективностью, инновационными методами обучения, духом с открытым исходным кодом и экономичными преимуществами.
Если вы заинтересованы в технологии искусственного интеллекта, вам также полюбите, прокомментируйте и поделитесь своими взглядами на серию моделей DeepSeek. В то же время мы продолжаем обращать внимание на последующее развитие DeepSeek и с нетерпением ждем, что он принесет больше сюрпризов и прорывов в поле ИИ, способствуя непрерывному прогрессу технологии ИИ и внесение больших изменений и возможностей для различных промышленность.
Появление DeepSeek принесло новую жизнеспособность и конкуренцию в области искусственного интеллекта, и его дух с открытым исходным кодом еще более похвально. В будущем модели серии DeepSeek покажут свои мощные способности в большем количестве областей, давайте подождем и посмотрим!