DeepSeek-V3: 초대형 오픈소스 AI 모델 출시, Llama와 Qwen을 능가하는 성능

저자：Eve Cole 업데이트 시간：2024-12-30 17:32:01

중국 인공지능 스타트업 DeepSeek이 오픈소스 코드와 강력한 성능으로 업계의 주목을 받고 있는 최신 초대형 모델 DeepSeek-V3를 출시했다. 671B 매개변수와 전문적인 하이브리드 아키텍처를 갖춘 DeepSeek-V3는 여러 벤치마크에서 주요 오픈 소스 모델을 능가하며 일부 폐쇄 소스 모델과도 유사한 성능을 발휘합니다. 그 혁신은 보조 무손실 로드 밸런싱 전략과 멀티 토큰 예측 기술에 있으며, 이는 모델 훈련 효율성과 실행 속도를 크게 향상시킵니다. DeepSeek-V3의 출시는 오픈 소스 AI 기술의 획기적인 발전으로, 폐쇄 소스 AI와의 격차를 더욱 줄이고 일반 인공 지능(AGI) 개발의 길을 열었습니다.

2024년 12월 26일, 중국 인공지능 스타트업 DeepSeek이 최신 초대형 모델 DeepSeek-V3를 출시했습니다. DeepSeek-V3는 오픈소스 기술과 AI 공급업체를 선도하는 혁신적인 도전으로 유명합니다. DeepSeek-V3에는 671B 매개변수가 있으며 전문가 혼합 아키텍처를 사용하여 특정 매개변수를 활성화하여 주어진 작업을 정확하고 효율적으로 처리합니다. DeepSeek에서 제공한 벤치마크에 따르면, 이 새로운 모델은 Meta의 Llama3.1-405B를 포함한 주요 오픈 소스 모델을 능가했으며 Anthropic 및 OpenAI의 폐쇄형 모델과 유사한 성능을 가지고 있습니다.

DeepSeek-V3의 출시로 오픈 소스 AI와 폐쇄 소스 AI 간의 격차가 더욱 좁아졌습니다. 중국 퀀트 헤지펀드 High-Flyer Capital Management의 파생물로 시작된 DeepSeek은 이러한 개발이 인간이 수행할 수 있는 모든 지적 작업을 모델이 이해하거나 학습할 수 있는 인공 일반 지능(AGI)의 길을 열기를 희망합니다. .

DeepSeek-V3의 주요 기능은 다음과 같습니다.

이전 DeepSeek-V2와 마찬가지로 새 모델은 다중 헤드 MLA(잠재 주의) 및 DeepSeekMoE의 기본 아키텍처를 기반으로 하여 효율적인 훈련 및 추론을 보장합니다.

회사는 또한 보조 무손실 로드 밸런싱 전략과 MTP(Multi-Token Prediction)라는 두 가지 혁신을 출시했습니다. MTP(Multi-Token Prediction)는 모델이 여러 미래 토큰을 동시에 예측할 수 있도록 하여 훈련 효율성을 개선하고 모델이 초당 60개의 토큰 생성당 3배 더 빠르게 실행되도록 합니다. .

사전 학습 단계에서 DeepSeek-V3는 14.8T의 고품질 다양한 토큰을 학습하고 2단계 컨텍스트 길이 확장을 수행한 후 마지막으로 SFT(Supervised Fine-Tuning) 및 RL(Reinforcement Learning)을 사용하여 사후 학습을 수행했습니다. 모델을 인간의 선호도에 맞춰 정렬하고 잠재력을 더욱 발휘합니다.

훈련 단계에서 DeepSeek는 FP8 혼합 정밀도 훈련 프레임워크와 파이프라인 병렬화를 위한 DualPipe 알고리즘을 포함한 다양한 하드웨어 및 알고리즘 최적화를 사용하여 훈련 비용을 절감합니다. DeepSeek-V3의 전체 훈련 프로세스는 2788K H800 GPU 시간 또는 약 557만 달러에 완료된다고 주장되는데, 이는 대규모 언어 모델을 사전 훈련하는 데 일반적으로 소비되는 수억 달러보다 훨씬 적은 금액입니다.

DeepSeek-V3는 시장에서 가장 강력한 오픈 소스 모델이 되었습니다. 회사가 실시한 여러 벤치마크에서는 OpenAI 모델이 각각 38.2점과 80.5점으로 선두를 달리는 영어 중심 SimpleQA 및 FRAMES를 제외하고 대부분의 벤치마크에서 비공개 소스 GPT-4o보다 우수한 것으로 나타났습니다(DeepSeek-V3 점수는 24.9점 및 73.3점). 각기). DeepSeek-V3는 Math-500 테스트에서 90.2점을 기록하며 중국 및 수학 벤치마크에서 특히 좋은 성적을 거두었고 Qwen은 80점을 기록했습니다.

현재 DeepSeek-V3의 코드는 GitHub에서 MIT 라이선스로 제공되며, 모델은 해당 회사의 모델 라이선스로 제공됩니다. 기업은 ChatGPT와 유사한 플랫폼인 DeepSeek Chat을 통해 새로운 모델을 테스트하고 상업용 API에 액세스할 수도 있습니다. DeepSeek은 2월 8일까지 DeepSeek-V2와 동일한 가격으로 API를 제공할 예정입니다. 그 이후에는 입력 토큰 100만 개당 0.27달러(캐시 히트의 경우 토큰 100만 개당 0.07달러), 출력 토큰 100만 개당 1.10달러의 수수료가 부과됩니다.

가장 밝은 부분:

Llama와 Qwen을 능가하는 성능을 갖춘 DeepSeek-V3가 출시되었습니다.

효율성을 향상시키기 위해 671B 매개변수와 전문 하이브리드 아키텍처를 채택하십시오.

혁신에는 무손실 로드 밸런싱 전략과 향상된 속도를 위한 멀티 토큰 예측이 포함됩니다.

교육 비용이 크게 절감되어 오픈 소스 AI 개발이 촉진됩니다.

DeepSeek-V3의 오픈 소스와 고성능은 인공 지능 분야에 지대한 영향을 미치고 오픈 소스 AI 기술 개발을 촉진하며 다양한 분야에서의 적용을 촉진할 것입니다. DeepSeek은 앞으로도 더욱 발전된 AI 모델 개발에 힘쓰며 AGI 실현에 기여하겠습니다. 앞으로 우리는 DeepSeek에서 더 많은 혁신을 기대할 이유가 있습니다.

​DeepSeek-V3: 초대형 오픈소스 AI 모델 출시, Llama와 Qwen을 능가하는 성능

DeepSeek-V3: 초대형 오픈소스 AI 모델 출시, Llama와 Qwen을 능가하는 성능