오픈 소스 AI의 새로운 차원에 도전: DeepSeek V3는 Llama3.1을 능가하며 훈련 데이터는 14.8조 토큰에 달합니다.

저자：Eve Cole 업데이트 시간：2024-12-30 17:48:02

중국이 인공지능 분야에서 큰 발전을 이루었습니다! DeepSeek은 매개변수 크기가 6,710억인 오픈 소스 대규모 언어 모델인 DeepSeek V3를 출시했습니다. 그 성능은 GPT-4를 포함한 많은 주류 폐쇄 소스 모델을 능가합니다. DeepSeek V3는 프로그래밍 대회와 코드 통합 테스트에서 좋은 성적을 거두었을 뿐만 아니라, 유사한 제품의 개발 투자와는 극명한 대조를 이루는 효율적인 개발 비용(단 2개월, 550만 달러)으로 눈길을 끌었습니다. 이러한 성과 뒤에는 강력한 서버 클러스터 구축에 투자한 퀀트 헤지펀드 하이플라이어 캐피탈 매니지먼트의 전폭적인 지원이 있었다.

중국 인공지능 기업 DeepSeek은 최근 획기적인 오픈소스 대형 언어 모델 DeepSeek V3를 출시했습니다. 6,710억 개의 매개변수를 가진 이 모델은 규모 면에서 Meta의 Llama3.1을 능가할 뿐만 아니라 여러 벤치마크 테스트에서 GPT-4를 포함한 주류 비공개 소스 모델보다 성능이 뛰어납니다.

DeepSeek V3의 뛰어난 기능은 강력한 성능과 효율적인 개발 프로세스입니다. 이 모델은 프로그래밍 플랫폼 Codeforces의 경쟁에서 좋은 성적을 거두었으며 코드 통합 기능을 테스트하는 Aider Polyglot 테스트에서 경쟁사를 이끌었습니다. 모델 훈련은 14조 8천억 개의 토큰이라는 거대한 데이터 세트를 사용하며, 매개변수 크기는 Llama3.1의 1.6배에 달합니다.

AI 机器人人工智能 (2)

더욱 놀라운 점은 DeepSeek이 유사 제품의 개발 투자 비용보다 훨씬 낮은 550만 달러의 비용으로 단 2개월 만에 모델 훈련을 완료했다는 점입니다.

DeepSeek의 후원자는 중국의 양적 헤지펀드 High-Flyer Capital Management입니다. 이 펀드는 약 1억 3,800만 달러 상당의 Nvidia A100 GPU 10,000개를 갖춘 서버 클러스터에 투자했습니다. High-Flyer의 설립자인 Liang Wenfeng은 오픈 소스 AI가 결국 현재 폐쇄형 모델의 독점 이점을 깨뜨릴 것이라고 말했습니다.

DeepSeek V3는 허용 라이선스에 따라 출시되므로 개발자는 상업적 목적을 포함한 다양한 애플리케이션에 다운로드, 수정 및 사용할 수 있습니다. 정식 버전을 실행하려면 여전히 강력한 하드웨어 지원이 필요하지만, 이 오픈 소스 모델의 출시는 AI 분야의 개방형 혁신을 위한 중요한 단계입니다.

DeepSeek V3의 오픈 소스 릴리스는 인공 지능 기술의 발전을 촉진할 뿐만 아니라 글로벌 개발자에게 더 많은 기회를 제공하여 향후 인공 지능 분야의 발전이 더욱 개방적이고 다양해질 것임을 나타냅니다. 저비용, 고효율의 교육 프로세스는 다른 연구 기관 및 기업에도 귀중한 경험과 참고 자료를 제공하므로 향후 개발을 기대해 볼 가치가 있습니다.