DeepSeek의 최근 출시 된 DeepSeek-V3 및 DeepSeek-R1 모델은 인공 지능 분야에서 큰 반응을 보였습니다. 특히, DeepSeek-R1 오픈 소스 모델 가중치는 업계에서 광범위한 관심을 끌고 Meta와 같은 회사에 큰 압력을 가해 모든 교육 기술을 공개합니다. 메타 엔지니어들은 심지어 팀이 공황 상태에 있다고 공개적으로 언급했으며 DeepSeek의 기술을 복제하려고 시도했습니다.
DeepSeek이 최근에 출시 한 일련의 모델은 Global AI Circle에서 충격을 유발했습니다. DeepSeek-V3은 저렴한 비용으로 고성능을 달성하며 많은 리뷰에서 최고급 소스 모델과 비교할 수 있습니다. 또한 오픈 소스이기도합니다. 모델 가중치는 새로운 혁신과 사고를 AI 분야에 가져 왔습니다.
DeepSeek은 또한 모든 교육 기술을 공개합니다. R1은 OpenAI의 O1 모델에 대해 벤치마킹되었으며 강화 학습 기술은 훈련 후 단계에서 광범위하게 사용됩니다. DeepSeek는 R1이 수학, 코드, 자연어 추론과 같은 작업에서 O1과 비슷하며 API 가격은 O1의 4% 미만이라고 말했다.
Deepseek R1 너무 강해! 메타 엔지니어들은 공황 상태에 빠졌다 : 복사하려는 미친 해체 시도최근 해외 익명 직장 커뮤니티의 메타 직원의 익명 게시물 인 Teamblind는 특히 인기가있었습니다. DeepSeek V3의 출시로 LLAMA 4는 모두 벤치 마크에 이르렀으며 Meta Generative AI 팀은 공황 상태입니다. "알 수없는 중국 회사"는 훈련을 완료하고 기존의 큰 모델을 때리기 위해 550 만 달러의 예산을 가지고 있습니다.
메타 엔지니어는 열렬히 Deepseek을 해체하고 복사하려고 노력하지만 경영진은 고위 경영진에 대한 높은 비용을 설명하는 방법에 대해 염려합니다. DeepSeek R1의 출현으로 인해 상황이 악화되며 일부 정보는 아직 공개 될 수는 없지만 곧 공개 될 것이며 그때까지는 상황이 훨씬 더 바람직하지 않을 수 있습니다.
메타 직원의 익명 게시물의 번역은 다음과 같습니다 (DeepSeek R1에 의해 번역) :
메타 생성 AI 부서는 비상 상태에 들어갑니다
그것은 모두 Deepseek V3로 시작했습니다 - Llama 4 벤치 마크 점수를 즉시 날짜로 보았습니다. 더욱 부끄러운 것은 "알려지지 않은 중국 회사가 5 백만 달러의 훈련 예산으로 그러한 돌파구를 달성했다는 것입니다."
엔지니어 팀은 모든 기술적 세부 사항을 복제하려고 노력하면서 깊은 건축물을 열렬히 해체하고 있습니다. 이것은 결코 과장이 아니며, 코드베이스는 카펫 스타일의 검색을 받고 있습니다.
경영진은 부서의 막대한 비용의 합리성에 대해 죽어 가고 있습니다. 생성 AI 부서의 각 "리더"의 연봉이 DeepSeek V3의 전체 교육 비용을 초과하고 수십 개의 그러한 "리더"가있는 경우 어떻게 고위 경영진에게 설명해야합니까?
DeepSeek R1은 상황을 더욱 심각하게 만듭니다. 기밀 정보를 공개 할 수는 없지만 관련 데이터는 곧 공개됩니다.
유능한 기술 지향 팀이어야하지만, 많은 사람들이 영향을 미치기 위해 조직 구조는 의도적으로 확장되었습니다. 이 왕좌의 게임의 결과? 결국, 모두는 패자가되었습니다.
DeepSeek 시리즈 모델 소개DeepSeek-V3 : 매개 변수량이 671b의 하이브리드 전문가 (MOE) 언어 모델이며 각 토큰은 37B를 활성화합니다. MLA (Multi-Head Senatent Interest) 및 Deepseekmoe 아키텍처를 채택하며, 14.8 조 고품질 토큰에 미리 훈련 된 미세 조정 및 강화 학습 후에는 여러 평가에서 일부 오픈 소스 모델을 능가합니다. -4O 및 Claude 3.5 Sonnet과 같은 최고의 폐쇄 소스 모델에는 비슷한 성능이 있습니다. 훈련 비용은 낮으며 2.788 백만 H800 GPU 시간, 약 5 억 5,76 백만 달러의 미국 달러이며 교육 과정은 안정적입니다.
DeepSeek-R1 : DeepSeek-R1-Zero 및 Deepseek-R1을 포함합니다. 대규모 강화 학습 교육을 통해 DeepSeek-R1-Zero는 대규모 강화 학습 교육을 통해 자기 검증, 반사 및 기타 능력을 보여 주며 감독 된 미세 조정 (SFT)에 의존하지 않지만 빈곤과 같은 문제가 있습니다. 가독성과 언어 혼란. DeepSeek-R1을 기반으로 DeepSeek-R1은 다단계 교육 및 콜드 스타트 데이터를 소개합니다.이 데이터는 수학, 코드 및 자연어 추론과 같은 작업에서 OpenAI O1의 공식 버전과 비슷합니다. 동시에, 오픈 소스 커뮤니티의 개발을 촉진하기 위해 매개 변수 스케일이 다른 여러 모델이 열렸습니다.
DeepSeek이 그렇게 특별하게 만드는 이유는 무엇입니까?탁월한 성능 : DeepSeek-V3 및 DeepSeek-R1은 여러 벤치 마크에서 잘 수행되었습니다. 예를 들어, DeepSeek-V3은 MMLU, Drop 및 기타 평가에서 우수한 결과를 얻었습니다. Aime 2024, MATH-500 및 기타 테스트에서는 OpenAI O1의 공식 버전과 비교할 수 있습니다. .
훈련 혁신 :
DeepSeek-V3는 보조 손실없이 부하 밸런싱 전략과 MTP (Multi-Token Prediction Targets)를 채택하여 성능 저하를 줄이고 FP8 교육을 사용하여 대규모 모델에 대한 타당성을 확인합니다.
DeepSeek-R1-Zero는 순수한 강화 학습 교육을 사용하고 단순한 보상 및 처벌 신호에만 의존하여 모델을 최적화하여 강화 학습이 모델의 추론 능력을 향상시킬 수 있음을 증명합니다 안정성과 가독성.
오픈 소스 공유 : DeepSeek 시리즈 모델은 DeepSeek-V3 및 DeepSeek-R1과 같은 오픈 소스 개념 및 오픈 소스 모델 가중치 및 소규모 증류 모델을 준수하므로 사용자는 증류 기술을 통해 다른 모델을 훈련시켜 의사 소통 및 혁신을 촉진 할 수 있습니다. AI 기술.
다중 도메인 장점 : DeepSeek-R1은 코드 필드에서 강력한 기능을 보여줍니다. 이는 대부분의 인간 참가자를 능가하여 다양한 텍스트 이해력을 능가합니다. 그리고 세대 작업.
높은 비용 성능 : DeepSeek 시리즈 모델 API는 저렴합니다. 예를 들어, DeepSeek-V3 API의 입력 및 출력 가격도 비슷한 모델보다 훨씬 낮습니다.
DeepSeek-R1 적용 가능한 시나리오자연 언어 처리 작업 : 텍스트 생성, 질문 및 답변 시스템, 기계 번역, 텍스트 요약 등을 포함하여. 예를 들어, 질문 및 답변 시스템에서 DeepSeek-R1은 문제를 이해하고 텍스트 생성 작업에서 정확한 답변을 제공하는 추론 능력을 사용하여 주어진 주제를 기반으로 고품질 텍스트를 생성 할 수 있습니다.
코드 개발 : 개발자가 코드 작성, 디버그 프로그램 및 코드 로직을 이해하도록 도와줍니다. 예를 들어, 개발자가 코드 문제를 겪을 때 DeepSeek-R1은 코드를 분석하고 솔루션을 제공 할 수 있습니다.
수학적 문제 해결 : 수학 교육, 과학 연구 및 기타 시나리오에서 복잡한 수학적 문제를 해결합니다. DeepSeek-R1과 마찬가지로 AIME 경쟁 관련 질문에서 잘 수행되며 학생들이 수학 및 연구원이 수학 문제를 다루는 데 도움을주는 데 사용될 수 있습니다.
모델 연구 및 개발 : AI 연구원이 모델 증류, 개선 된 모델 구조 및 교육 방법을 연구 할 수있는 참조 및 도구를 제공합니다. 연구원들은 새로운 기술 방향을 탐색하기 위해 DeepSeek 오픈 소스 모델을 기반으로 실험을 수행 할 수 있습니다.
보조 의사 결정 : 프로세스 데이터 및 정보 및 비즈니스, 금융 분야에서 의사 결정 조언을 제공합니다. 예를 들어, 시장 데이터를 분석하여 기업이 마케팅 전략을 공식화하기위한 참조를 제공합니다.
DeepSeek 시리즈 모델에 대한 간결한 사용 튜토리얼플랫폼 방문 : 사용자는 DeepSeek 공식 웹 사이트 (https://www.deepseek.com/)에 로그인하여 플랫폼을 입력 할 수 있습니다.
모델 선택 : 공식 웹 사이트 또는 앱에서 기본 대화는 Deepseek-V3을 클릭하여 DeepSeek-R1 모델에 의해 구동됩니다. API를 통해 호출되면 DeepSeek-R1을 사용할 때 설정 모델 = 'DeepSeek-reasoner'와 같은 요구 사항에 따라 해당 모델 매개 변수를 코드에서 설정하십시오.
입력 작업 : "사랑 소설 작성", "이 코드의 기능 설명", "수학적 방정식 해결"등의 자연 언어로 설명 된 작업을 입력하십시오 API 사양에 전달 된 작업 관련 정보를 입력 매개 변수로 추가하십시오.
결과 GET : 모델이 작업을 처리 한 후 결과를 반환하고 생성 된 텍스트를보고, 답변 질문 등을 사용하면 API를 사용할 때 후속 처리를 위해 결과 데이터를 구문 분석하십시오.
결론DeepSeek 시리즈 모델은 AI 분야에서 뛰어난 성능, 혁신적인 교육 방법, 오픈 소스 공유 정신 및 비용 효율적인 이점으로 놀라운 결과를 얻었습니다.
AI 기술에 관심이 있다면 DeepSeek 시리즈 모델에 대한 견해를 공유하고 공유 할 수도 있습니다. 동시에, 우리는 DeepSeek의 후속 개발에 계속주의를 기울이고 AI 분야에 더 많은 놀라움과 혁신을 가져오고 AI 기술의 지속적인 발전을 촉진하고 다양한 변화와 기회를 제공하기를 기대합니다. 산업.
Deepseek의 출현은 인공 지능 분야에 새로운 활력과 경쟁을 가져 왔으며 오픈 소스 정신은 훨씬 더 칭찬 할 만합니다. 앞으로 DeepSeek 시리즈 모델은 더 많은 분야에서 강력한 능력을 보여줄 것입니다.