다중 모드 AI 모델에 대한 Li Feifei 팀의 미래 지향적 연구는 처음에 공간 지능을 보여줍니다.

저자：Eve Cole 업데이트 시간：2024-12-27 08:48:01

Li Feifei 교수 팀의 최신 연구에 따르면 다중 모드 대형 모델이 공간 지능 분야에서 획기적인 발전을 이루었으며 공간을 기억하고 회상하고 로컬 세계 모델을 구축하는 능력을 입증했습니다. 이 연구에서는 VSI-Bench 평가 도구를 사용하여 실제 비디오 시나리오를 기반으로 여러 대형 모델을 테스트했습니다. 결과에 따르면 일부 모델은 공간 추론 작업에서 인간 수준에 도달했거나 접근했으며 인지 맵 지원이 모델을 크게 향상시킬 수 있음을 발견했습니다. 이해능력. 이번 연구는 공간지각 분야에서 AI의 최신 동향을 밝힐 뿐만 아니라, 향후 내비게이션, 로봇 상호작용 등 다양한 분야에서 AI가 폭넓게 적용될 가능성을 예고하고 있다.

연구팀이 개발한 VSI-Bench에는 다양한 시나리오와 지리적 영역을 다루는 5,000개 이상의 고품질 질문과 답변 쌍이 포함되어 있어 시각적 공간 지능을 평가하기 위한 신뢰할 수 있는 벤치마크를 제공합니다. 이번 연구 결과는 일반 인공지능(AGI) 개발을 촉진하는 데 큰 의미가 있으며, 공간 지능 AI 모델 개발에 주력하는 리 페이페이(Li Feifei) 교수가 설립한 회사인 월드 랩스(World Labs)에 견고한 기술 기반을 제공합니다. 회사의 성공은 또한 공간 지능형 AI의 엄청난 잠재력과 시장 전망을 확인시켜 줍니다.

연구 결과에 따르면 다중 모드 모델의 전반적인 성능은 여전히 인간의 성능보다 낮지만 일부 작업에서는 인간 수준에 도달했거나 근접한 것으로 나타났습니다. 예를 들어 Gemini-1.5Pro는 절대 거리 및 공간 크기 추정과 같은 작업에서 탁월한 성능을 발휘하며 LLaVA 시리즈와 같은 일부 오픈 소스 모델도 경쟁력 있는 결과를 얻었습니다.

이 연구는 또한 공간 추론을 돕기 위해 인지 지도를 사용하면 공간 작업에 대한 모델의 성능을 크게 향상시킬 수 있으며 정확도가 최대 10% 포인트 증가할 수 있다고 지적했습니다. 이는 인지 지도를 명시적으로 생성하면 공간 이해에서 모델의 병목 현상을 해결하는 데 도움이 될 수 있음을 보여줍니다.

리페이페이는 공간지능이 물리적 세계를 이해하는 AI의 핵심 능력이자 일반 인공지능(AGI) 구현에 핵심이라고 말했다. 그녀는 공간 지능이 AI 분야의 차세대 첨단 기술 방향이 될 것이라고 믿으며 2025년에는 중요한 돌파구를 달성할 것으로 예상됩니다.

올해 9월 리 페이페이(Li Feifei)가 설립한 회사인 월드 랩스(World Labs)는 공식 출범을 발표하고 공간 지능을 갖춘 AI 모델 개발에 중점을 두고 있습니다. 이 회사는 Nvidia, a16z, Adobe 및 기타 유명 기관을 비롯한 유명 기관으로부터 투자를 받았으며 현재 가치는 10억 달러를 초과합니다.

이번 연구와 적용은 2차원 정보처리에서 3차원 공간 인식까지 AI 기술의 중요한 발전을 의미하며, 향후 내비게이션, 로봇 상호작용, 증강현실 등 다양한 분야에서 폭넓게 활용될 것으로 기대된다. 인공지능의 발전을 위한 새로운 길.

이번 연구 결과는 흥미롭고 AI 발전의 새로운 방향을 제시하고 있다. 앞으로도 지속적인 기술 발전과 함께 공간지능을 기반으로 한 AI 응용은 우리의 삶을 근본적으로 변화시키고 인류사회에 더 많은 편리함과 가능성을 가져다 줄 것입니다.