프랑스 AI 거대 기업, 다중 모드 전장 습격: Mistral AI, 오픈 소스 이미지 및 텍스트 이해 모델 Pixtral 12B 출시

저자：Eve Cole 업데이트 시간：2024-12-30 09:32:01

Mistral AI는 놀랍게도 최초의 오픈 소스 다중 모드 대형 모델 Pixtral12B를 출시했습니다. 120억 개의 매개변수 규모와 강력한 이미지 및 텍스트 처리 능력은 Anthropic의 Claude 시리즈 및 OpenAI의 GPT-4와 비슷합니다. 더욱 놀라운 점은 Mistral AI가 모델 가중치를 직접 공개하고 심지어 마그넷 링크 다운로드까지 제공함으로써 사용 임계값을 크게 낮추고 개발자와 연구원이 보다 쉽고 빠르게 시작할 수 있도록 한다는 것입니다. Pixtral12B의 크기는 23.64GB에 불과하며, 멀티모달 모델 중 가볍고, 에너지 소비가 적으며, 배포가 쉽고, 고속 네트워크에서 몇 분 안에 다운로드할 수 있습니다.

Mistral AI는 다시 한 번 AI 세계에 충격을 주었고 최초의 오픈 소스 다중 모드 대형 모델인 Pixtral12B를 출시했습니다. 이미지와 텍스트를 동시에 처리할 수 있는 이 모델은 기술적으로 진보했을 뿐만 아니라 개방성으로도 많은 주목을 받고 있습니다. Mistral AI는 모델 가중치를 온라인에 직접 게시하고 심지어 자석 링크까지 세심하게 제공합니다.

Pixtral12B의 하이라이트는 강력한 기능뿐만 아니라 정교한 디자인입니다. 전체 모델 크기는 23.64GB에 불과해 멀티모달 모델 중 가벼운 플레이어다. 이 기능은 에너지 소비와 배포 임계값을 크게 줄여 더 많은 개발자와 연구자가 쉽게 시작할 수 있도록 해줍니다. 고속 인터넷 연결을 사용하는 사용자는 단 몇 분 만에 다운로드를 완료할 수 있어 모델의 접근성이 크게 향상되는 것으로 알려졌습니다.

Mistral AI의 최신 걸작인 Pixtral12B는 텍스트 모델 Nemo12B를 기반으로 개발되었으며 120억 개의 매개변수를 가지고 있습니다. 그 기능은 Anthropic의 Claude 시리즈, OpenAI의 GPT-4 등 잘 알려진 다중 모드 모델과 비슷하며 다양하고 복잡한 이미지 관련 질문을 이해하고 답변할 수 있습니다.

기술 사양 측면에서 Pixtral12B는 40층 네트워크 구조, 14,336개의 숨겨진 차원, 32개의 주의 헤드 및 1024x1024 해상도 이미지 처리를 지원하는 400M 전용 시각적 인코더 등 인상적입니다.

더욱 언급할 가치가 있는 점은 Pixtral12B가 여러 권위 있는 벤치마크 테스트에서 좋은 성능을 보였다는 것입니다. MMMU, Mathvista, ChartQA 및 DocVQA와 같은 플랫폼에서 그 결과는 Phi-3 및 Qwen-27B를 포함하여 잘 알려진 많은 다중 모드 모델을 능가하여 강력한 강점을 충분히 입증했습니다.

Mistral AI의 움직임은 의심할 여지 없이 다중 모드 모델의 오픈 소스 물결을 더욱 촉진할 것입니다. 이 새로운 모델에 대한 커뮤니티의 반응은 압도적이었으며 많은 개발자와 연구자가 Pixtral12B의 잠재력을 탐구하기를 열망했습니다. 이는 오픈 소스 커뮤니티의 활력을 반영할 뿐만 아니라 다중 모드 AI 기술이 새로운 혁신을 가져올 수 있음을 나타냅니다.

Pixtral12B의 출시로 우리는 더욱 혁신적인 애플리케이션의 출현을 기대할 이유가 생겼습니다. 이미지 이해, 문서 분석 또는 교차 모달 추론 분야에서 이 모델은 획기적인 발전을 가져올 수 있습니다. 미스트랄 AI의 이번 행보는 AI 기술의 민주화와 대중화에 의심할 여지 없이 기여했다. 앞으로 AI 분야의 패턴이 어떻게 바뀔지 기다려보자.

허깅페이스 주소: https://huggingface.co/mistral-community/pixtral-12b-240910

Pixtral12B의 오픈 소스 릴리스는 멀티모달 AI 기술 개발의 새로운 단계를 의미합니다. Pixtral12B를 기반으로 한 더욱 혁신적인 애플리케이션이 등장하기를 기대합니다. .