Dark Side of the Moon Company는 오늘 강화 학습 기술을 기반으로 하고 이미지 이해 및 추론에 획기적인 발전을 이룬 새로운 시각적 사고 모델 k1을 출시했습니다. k1 모델은 엔드 투 엔드 이미지 이해를 지원할 뿐만 아니라 사고 체인 기술을 통합하여 응용 범위를 물리학, 화학 등 기초 과학 분야로 확장하고 여러 벤치마크 테스트에서 세계 최고의 모델을 능가합니다. 이미지 이해와 사고 능력의 통합에 혁신이 있습니다. 사용자는 외부 도구에 의존하지 않고도 이미지 정보를 직접 입력하고 답변을 얻을 수 있어 상호 작용 효율성과 사용자 경험이 크게 향상됩니다.
Dark Side of the Moon은 오늘 새로운 시각적 사고 모델 k1의 출시를 발표했습니다. 이 모델은 강화학습 기술을 기반으로 하여 엔드투엔드 이미지 이해를 지원할 뿐만 아니라 사고체인 기술을 통합해 수학 외에 물리, 화학 등 보다 기초 과학 분야로 그 역량을 확장한다. 벤치마크 성능 테스트에서 k1 모델은 OpenAI의 o1, GPT-4o, Claude3.5Sonnet 등 세계 최고의 벤치마크 모델보다 성능이 뛰어났습니다.
차세대 모델은 보다 상세한 추론 단계 생성을 자극하여 고품질 사고 체인을 형성하고 복잡한 작업 해결 성공률을 크게 향상시킵니다. 이미지 이해 및 사고 능력에 Kimi의 k1 모델을 통합하면 사용자에게 보다 원활한 대화형 경험을 제공할 수 있으며, 외부 OCR이나 추가적인 시각적 모델에 의존하지 않고도 사용자가 입력한 이미지 정보를 직접 처리하고 답변을 얻을 수 있습니다.
k1 모델의 학습은 두 단계로 나누어진다. 먼저 사전 학습을 통해 기본 모델을 획득하고, 이를 기반으로 강화 학습을 통한 사후 학습을 수행한다. 기본 모델은 OCRBench에서 903점이라는 뛰어난 점수를 획득했으며 MathVista-testmini, MMMU-val 및 DocVQA 벤치마크에서 뛰어난 성능을 보였습니다. 강화 후 학습 훈련은 데이터 품질 및 학습 효율성 측면에서 최적화되어 규모 면에서 새로운 혁신을 달성합니다.
Kimi는 또한 다양한 난이도의 수학적, 물리적, 화학적 그림 문제를 다루는 표준화된 테스트 세트인 Science Vista를 독립적으로 구축했으며 전체 업계에 공개될 예정입니다. k1 모델은 내부 테스트에서 Out-of-distribution 일반화의 개선 여지와 복잡한 문제에 대한 성공률 등 일부 한계를 보였지만 시각적 노이즈 장면에서의 성능은 다른 모델보다 우수하여 매우 강력한 시각적 인식 능력을 보여줍니다.
Kimi 지능형 비서의 k1 시각적 사고 모델은 수학 분야에서 뛰어난 성능을 발휘할 뿐만 아니라 물리학 및 화학 분야까지 확장되어 광범위한 기초 과학 능력을 보여줍니다. 또한 k1 모델은 과학자 원고의 내용 및 뒷이야기와 같은 비수학적 문제를 설명하고 추론하는 일반적인 능력을 보여주었습니다.
Kimi Smart Assistant는 사용자와 함께 더 큰 세상을 탐험하기를 기대합니다. 새로운 k1 모델이 출시되었습니다. 사용자는 최신 버전의 Kimi Smart Assistant 모바일 앱 또는 웹 버전을 통해 이 새로운 기능을 경험할 수 있습니다.
Kimi의 k1 모델은 많은 벤치마크 테스트에서 좋은 성적을 거두며 강력한 시각적 사고 능력과 광범위한 응용 가능성을 입증했습니다. 아직 개선해야 할 부분이 있지만, 이미지 인식과 과학적 질문 응답 분야의 획기적인 발전은 의심할 여지 없이 인공지능 분야에 새로운 발전의 원동력을 가져올 것입니다. 사용자는 k1 모델이 제공하는 새로운 인터랙티브 경험을 경험하실 수 있습니다!