Hugging Face 팀은 Smolvlm-256m 및 Smolvlm-500m의 두 가지 경량 AI 모델을 발표했으며 현재 2 억 2 천 6 백만 및 5 억의 매개 변수가 이미지, 비디오 및 텍스트 데이터를 동시에 처리 할 수있는 가장 작은 AI 모델입니다. 이 두 모델은 특히 1GB 미만의 메모리가있는 장치에 적합하므로 개발자에게 저렴한 및 고효율 데이터 처리 솔루션을 제공합니다. 효율적인 성과는 특히 초등학교 과학 차트를 다루는 데있어 다양한 벤치 마크에서 많은 대규모 모델을 능가하여 교육 및 연구에서 큰 잠재력을 보여줍니다.
최근 인공 지능 개발 플랫폼 인 Hugging Face 팀은 Smolvlm-256M과 Smolvlm-500m의 두 가지 새로운 AI 모델을 발표했습니다. 그들은 두 모델이 이미지, 짧은 비디오 및 텍스트 데이터를 동시에 처리 할 수있는 가장 작은 AI 모델이며, 특히 랩톱과 같은 1GB 미만의 메모리가있는 장치에 적합하다고 자신있게 주장합니다. 이 혁신을 통해 개발자는 다량의 데이터를 처리 할 때 더 낮은 비용으로 더 높은 효율성을 달성 할 수 있습니다.
이 두 모델의 매개 변수는 각각 2 억 5 천 5 백만과 5 억이므로 문제를 해결하는 능력도 그에 따라 개선 될수록 모델의 성능이 더 좋습니다. Smolvlm 시리즈가 수행 할 수있는 작업에는 이미지 또는 비디오 클립 설명 및 PDF 문서 및 텍스트 스캔 및 차트와 같은 콘텐츠에 대한 질문에 대한 답변이 포함됩니다. 이로 인해 교육 및 연구와 같은 많은 분야에서 광범위한 응용 프로그램 전망이 있습니다.
모델을 교육하는 동안 Hugging Face 팀은 "The Cauldron"이라는 50 개의 고품질 이미지 및 텍스트 데이터 세트와 Docmatix라는 파일 스캔 및 자세한 페어링 데이터 세트를 활용했습니다. 두 데이터 세트 모두 Hugging Face의 M4 팀에 의해 개발되었으며 멀티 모달 AI 기술 개발에 중점을 두었습니다. Smolvlm-256m 및 Smolvlm-500M은 IDEFICS80B와 같은 다양한 벤치 마크 테스트, 특히 AI2D 테스트에서 많은 대형 모델을 능가한다는 점은 주목할 가치가 있습니다. 특히 AI2D 테스트에서 초등학생의 과학적 차트를 분석 할 수있는 능력에서 뛰어납니다.
그러나 저렴하고 다재다능하지만 소규모 모델은 복잡한 추론 작업에서 대형 모델만큼 성능을 발휘하지 못할 수 있습니다. Google Deepmind, Microsoft Research Institute 및 Quebec의 Mila Institute의 연구에 따르면 많은 소규모 모델이 이러한 복잡한 작업에서 실망스럽게 수행 한 것으로 나타났습니다. 연구원들은 이것이 작은 모델이 데이터의 표면 특징을 식별하는 경향 때문일 수 있으며, 새로운 상황 에서이 지식을 적용 할 때 부도덕 한 것으로 보입니다.
Hugging Face의 Smolvlm 모델 제품군은 작은 AI 도구 일뿐 만 아니라 다양한 작업을 처리 할 때 인상적인 기능을 보여줍니다. 이는 저렴한 비용으로 효율적인 데이터 처리를 달성하려는 개발자에게 의심 할 여지없이 좋은 선택입니다.
Smolvlm 시리즈의 출현은 경량 AI 애플리케이션에 대한 새로운 가능성을 가져 왔습니다. 복잡한 작업의 개선의 여지가 여전히 있지만 낮은 임계 값과 높은 효율성으로 인해 많은 개발자가주의를 기울여야 할 선택입니다. 앞으로 더 많은 필드에서 Smolvlm 시리즈 모델의 응용 프로그램과 추가 최적화를 기대합니다.