Meta AI 연구원과 학업 파트너는 혁신적인 시스템 인 MILS (Multimodal Ierative LLM Solver)를 개발했으며, 이는 대형 언어 모델이 특수 교육없이 이미지, 비디오 및 오디오를 처리하도록 가르칩니다. MILS는 다량의 데이터 교육보다는 언어 모델의 자연 문제 해결 능력에 의존하여 고유 한 장점을 보여줍니다.
MILS는 두 가지 AI 모델을 짝을 이루어 작업 솔루션을 수행하여 작업 솔루션을 제안하는 "생성기"이며, 다른 하나는 생성 된 솔루션의 효과를 평가하는 데 사용되는 "등급"입니다. 득점자가 제공 한 피드백은 생성기가 만족스러운 결과에 도달 할 때까지 답을 지속적으로 최적화하는 데 도움이 될 수 있습니다. 예를 들어, 이미지 설명 작업에서 MILS는 이미지 설명을 점차 개선하여 이미지 세부 사항을 다른 수준에서 정확하게 설명 할 수 있습니다.
MILS는 이미지 설명에서 특히 잘 작동합니다. LLAMA-3.1-8B 모델을 생성기 및 클립 모델로 사용하면 클립이 이미지 설명 작업을 위해 특별히 교육을받지는 않지만 현재 주요 방법과 비슷한 이미지 설명을 만들 수 있습니다. 또한 MILS는 텍스트 프롬프트를 미세 조정하여 텍스트-이미지 생성 기능을 향상시키고 AI 생성 프롬프트를 이미지 처리 도구와 결합하여 스타일 변환과 같은 이미지 편집 작업을 처리 할 수 있습니다.
이미지 설명의 정확도는 생성기와 득점자 사이의 단계 수에 따라 증가합니다. |. 사진 : Ashutosh 등
MILS의 기능은 이미지로 제한되지 않으며 비디오 및 오디오 필드로 확장됩니다. MSR-VTT 비디오 데이터 세트를 사용하여 테스트 할 때 MILS는 비디오 컨텐츠 설명에서 기존 모델을 능가합니다. MILS는 작동 중에 모델 매개 변수를 수정하지 않으므로 다양한 유형의 데이터를 읽을 수있는 텍스트로 변환하여 이미지 및 오디오와 같은 여러 소스의 정보 병합 및 변환을 원하는 형식으로 지원하여 멀티 모달 정보 수렴 응용 프로그램이 새로워지게합니다. 가능성.
테스트에 따르면 더 큰 생성기와 스코어링 모델을 사용하면 더 정확한 결과를 얻을 수 있으며 잠재적 솔루션의 수를 늘리면 성능이 크게 향상 될 수 있습니다. 연구원들은 또한 더 큰 언어 모델로 확장하면 결과의 품질이 향상 될뿐만 아니라 성능을 크게 향상 시킨다는 것을 발견했습니다.
풍경은 단순한 기본 설명에서보다 정확한 세부 사항과 더 자연스러운 요소를 가진 복잡한 조경 표현으로 진화합니다. |. 사진 : Ashutosh 등
MILS가 채택한이 혁신적인 전략은 더 똑똑한 추론 능력에 대한 인공 지능 분야의 현재 추세와 일치합니다. META 팀은 또한 MILS가 미래에 3D 데이터 처리와 같은 분야에서 큰 잠재력을 보일 수 있으며, 멀티 모달 AI의 개발을 더욱 촉진한다고 말했다.
Meta의 LLAMA 3.2, Mistral 's Pixtral 및 DeepSeek의 Janus Pro와 같은 OpenAI의 GPT-4 및 기타 오픈 소스 대안의 빠른 개발로 인해 이러한 새로운 멀티 모달 AI 시스템은 일상 생활에 대한 적용을 가속화하고 있습니다 인공 지능 개발.