Оспаривание новых высот искусственного интеллекта с открытым исходным кодом: DeepSeek V3 превосходит Llama3.1, а данные обучения достигают 14,8 триллионов токенов

Автор：Eve Cole Время обновления：2024-12-30 17:48:02

Китай совершил серьёзный прорыв в области искусственного интеллекта! DeepSeek выпустила DeepSeek V3, модель большого языка с открытым исходным кодом с размером параметров 671 миллиард. Ее производительность превосходит многие распространенные модели с закрытым исходным кодом, включая GPT-4. DeepSeek V3 не только показал хорошие результаты в соревнованиях по программированию и тестах интеграции кода, но также привлек внимание эффективной стоимостью разработки — всего два месяца и 5,5 миллионов долларов, — что резко контрастирует с инвестициями в разработку аналогичных продуктов. За этим достижением стоит мощная поддержка количественного хедж-фонда High-Flyer Capital Management, который инвестировал в строительство мощных серверных кластеров.

Китайская компания по искусственному интеллекту DeepSeek недавно выпустила знаковую модель большого языка с открытым исходным кодом DeepSeek V3. Эта модель с 671 миллиардом параметров не только превосходит Meta Llama3.1 по масштабу, но и превосходит основные модели с закрытым исходным кодом, включая GPT-4, в нескольких тестах производительности.

Выдающимися особенностями DeepSeek V3 являются его высокая производительность и эффективный процесс разработки. Модель хорошо показала себя в соревнованиях на платформе программирования Codeforces и опередила конкурентов в тесте Aider Polyglot, проверяющем возможности интеграции кода. При обучении модели используется огромный набор данных из 14,8 триллионов токенов, а размер параметра в 1,6 раза превышает размер Llama3.1.

AI 机器人人工智能 (2)

Что еще более поразительно, так это то, что DeepSeek завершил обучение модели всего за два месяца и обошелся в 5,5 миллиона долларов США, что намного ниже, чем инвестиции в разработку аналогичных продуктов.

Спонсором DeepSeek является китайский количественный хедж-фонд High-Flyer Capital Management. Фонд инвестировал в серверный кластер с 10 000 графическими процессорами Nvidia A100 на сумму около 138 миллионов долларов. Лян Вэньфэн, основатель High-Flyer, сказал, что ИИ с открытым исходным кодом в конечном итоге сломает монопольное преимущество нынешней закрытой модели.

DeepSeek V3 выпускается под разрешительной лицензией, что позволяет разработчикам загружать, модифицировать и использовать его для различных приложений, в том числе в коммерческих целях. Хотя для запуска полной версии по-прежнему требуется мощная аппаратная поддержка, выпуск этой модели с открытым исходным кодом знаменует собой важный шаг для открытых инноваций в области искусственного интеллекта.

Выпуск DeepSeek V3 с открытым исходным кодом не только способствует развитию технологий искусственного интеллекта, но и предоставляет больше возможностей глобальным разработчикам, указывая на то, что будущее развитие области искусственного интеллекта будет более открытым и диверсифицированным. Его недорогой и высокоэффективный процесс обучения также предоставляет ценный опыт и рекомендации для других исследовательских институтов и компаний, и стоит с нетерпением ждать дальнейшего развития.