LeCun과 Xie Senin 팀은 비전을 최우선으로 생각하는 혁신적인 작업인 인상적인 다중 모드 대규모 언어 모델 Cambrian-1을 출시했습니다. 이는 기술적 혁신일 뿐만 아니라 다중 모드 학습 연구에 대한 새로운 사고를 나타냅니다. 오픈 소스 특성은 연구원과 개발자에게 귀중한 리소스를 제공합니다. Cambrian-1의 설계는 시각적 표현 학습, 커넥터 설계, 명령어 미세 조정 데이터, 명령어 미세 조정 전략 및 벤치마크 테스트 등 5가지 핵심 요소를 중심으로 이루어집니다. 이는 시각적 언어 작업에서 잘 수행되며 일부 최고 독점 모델과도 비교할 수 있습니다. . 하지만 연구팀도 모델의 대화 능력 부족점을 솔직하게 지적하고, 훈련 방법 개선 등 적극적으로 대응했다.
AI의 세계에서 우리는 LeCun 및 Xie Saining과 같은 업계 거대 기업이 공동으로 만든 다중 모드 대형 언어 모델(MLLM)인 Cambrian-1이라는 눈길을 끄는 새 멤버를 환영했습니다. 이 모델의 출현은 기술의 도약일 뿐만 아니라 다중 모드 학습 연구에 대한 심오한 성찰이기도 합니다.
Cambrian-1의 디자인 철학은 비전을 최우선으로 생각하며, 이는 오늘날의 언어 중심 AI 연구에서 특히 중요합니다. 이는 언어가 인간이 지식을 얻는 유일한 방법이 아니며 시각, 청각, 촉각과 같은 감각 경험도 마찬가지로 중요하다는 점을 상기시켜 줍니다. Cambrian-1의 오픈 소스는 다중 모드 학습에 관심이 있는 모든 연구자와 개발자에게 귀중한 리소스를 제공합니다.
이 모델의 구성은 시각적 표현 학습, 커넥터 설계, 명령어 미세 조정 데이터, 명령어 미세 조정 전략 및 벤치마크 테스트의 다섯 가지 핵심 요소를 중심으로 이루어집니다. 각 요소는 MLLM 설계 공간에 대한 심층적인 탐색이며 기존 문제에 대한 연구팀의 고유한 통찰력을 반영합니다.
시각적 언어 작업에 대한 Cambrian-1의 성능이 인상적이라는 점은 언급할 가치가 있습니다. 다른 오픈 소스 모델보다 성능이 뛰어날 뿐만 아니라 일부 벤치마크에서 업계 최고의 독점 모델과도 일치합니다. 이러한 성과의 이면에는 교수 미세 조정 및 커넥터 설계에 대한 연구팀의 혁신적인 사고가 있었습니다.
그러나 캄브리아기 1호의 연구 경로는 순조롭지 않았습니다. 연구원들은 잘 훈련된 MLLM이라 할지라도 "자동 응답기 현상"으로 알려진 대화 능력에 결함이 있을 수 있음을 발견했습니다. 이 문제를 해결하기 위해 모델이 더 풍부한 대화에 참여하도록 장려하기 위해 훈련에 시스템 프롬프트를 추가했습니다.
Cambrian-1의 성공은 이를 뒷받침하는 강력한 연구팀과 불가분의 관계입니다. 그 중 Shengbang Tong은 논문의 저자 중 한 명이며 그의 기여는 무시할 수 없습니다. 현재 그는 Yann LeCun 교수와 Xie Saining 교수의 지도 하에 뉴욕대학교에서 박사 과정을 밟고 있습니다. 그의 연구 관심 분야는 세계 모델, 비지도/자기 지도 학습, 생성 모델 및 다중 모드 모델을 다루고 있습니다.
Cambrian-1의 오픈소스는 AI 커뮤니티에 신선한 바람을 불어넣고 있습니다. 이는 강력한 다중 모드 학습 도구를 제공할 뿐만 아니라 사람들이 다중 모드 학습 연구에 대해 깊이 생각하도록 영감을 줍니다. 점점 더 많은 연구자와 개발자가 캄브리아기 1호 탐사에 동참할수록 이것이 AI 기술 발전을 촉진하는 데 중요한 힘이 될 것이라고 믿을 이유가 있습니다.
프로젝트 주소: https://github.com/cambrian-mllm/cambrian
논문: https://arxiv.org/abs/2406.16860
Cambrian-1의 출현은 다중 모드 AI 분야에 새로운 가능성을 가져왔고, 오픈 소스 특성은 더 넓은 협력과 혁신을 장려합니다. 앞으로도 Cambrian-1이 더 많은 분야에서 강력한 역량을 발휘하고, AI 기술의 지속적인 발전을 도모할 수 있기를 기대합니다.