Scholar Puyu Lingbi 다중 모드 대형 모델을 버전 2.5로 업그레이드하면 GPT4V를 직접 가리키는 더 긴 상황 이미지 및 비디오 이해를 지원합니다.

저자：Eve Cole 업데이트 시간：2024-12-15 09:32:01

상하이 인공 지능 연구소(Shanghai Artificial Intelligence Laboratory)는 최근 자신이 개발한 InternLM-XComposer 다중 모드 대형 모델이 버전 2.5(IXC-2.5)로 업그레이드되었다고 발표했습니다. 이 버전은 긴 컨텍스트 이해, 시각적 언어 이해 및 애플리케이션 확장 분야에서 획기적인 발전을 이루었고, 텍스트 이미지 이해 및 생성 기능이 크게 향상되었으며, 여러 벤치마크 테스트에서 기존 오픈 소스 모델을 능가했습니다. 일부 지표는 GPT-4V 및 Gemini Pro와도 비교할 수 있습니다. 비교 가능합니다. IXC-2.5는 강력한 성능과 광범위한 적용 가능성을 보여주며 다중 모드 대형 모델 개발을 위한 새로운 벤치마크를 설정합니다.

최근 InternLM-XComposer 다중 모드 대형 모델이 버전 2.5로 업그레이드되었습니다. 상하이 인공 지능 연구소에서 개발한 이 모델은 뛰어난 장기 컨텍스트 입력 및 출력 기능을 통해 텍스트 및 이미지 이해를 향상시켰습니다. 혁명적인 돌파구.

IXC-2.5는 교육에 사용된 24K 인터리브 이미지-텍스트 데이터 덕분에 최대 96K의 긴 컨텍스트를 쉽게 처리할 수 있습니다. 이 긴 컨텍스트 기능을 통해 IXC-2.5는 광범위한 입력 및 출력 컨텍스트가 필요한 작업에서 잘 수행됩니다.

이전 버전과 비교하여 IXC-2.5는 시각적 언어 이해에 있어 세 가지 주요 업그레이드가 있습니다.

초고해상도 이해: IXC-2.5는 기본 560×560ViT 시각적 인코더를 통해 모든 종횡비의 고해상도 이미지를 지원합니다.

세밀한 비디오 이해: 비디오를 수십에서 수백 개의 프레임으로 구성된 초고해상도 합성 이미지로 처리하여 조밀한 샘플링과 더 높은 해상도를 통해 세부 정보를 캡처합니다.

다중 회전 및 다중 화면 대화: 인간과 자연스러운 상호 작용을 위해 자유로운 형식의 다중 회전 및 다중 화면 대화를 지원합니다.

IXC-2.5는 이해도 향상 외에도 텍스트 이미지 생성을 위한 추가 LoRA 매개변수를 사용하여 두 가지 강력한 애플리케이션을 확장합니다.

웹 페이지 생성: IXC-2.5는 텍스트 이미지 지침을 기반으로 HTML, CSS 및 JavaScript 소스 코드를 작성하여 웹 페이지를 생성할 수 있습니다.

고품질 그래픽 기사 작성: 특별히 고안된 CoT(사고 사슬) 및 DPO(직접 선호 최적화) 기술을 사용하여 작성 콘텐츠의 품질을 크게 향상시킵니다.

IXC-2.5는 28개 벤치마크에서 평가되었으며 16개 벤치마크에서 기존 오픈 소스 최첨단 모델보다 성능이 뛰어납니다. 또한 16가지 주요 작업에서 GPT-4V 및 Gemini Pro와 동등하거나 능가했습니다. 이번 성과는 IXC-2.5의 강력한 성능과 폭넓은 적용 가능성을 충분히 입증합니다.

논문 주소: https://arxiv.org/pdf/2407.03320

프로젝트 주소: https://github.com/InternLM/InternLM-XComposer

전체적으로 버전 IXC-2.5의 출시는 다중 모드 대형 모델 기술에서 상당한 진전을 의미하며, 강력한 성능과 풍부한 응용 시나리오는 향후 인공 지능 기술 개발의 밝은 미래를 나타냅니다. 앞으로 더욱 더 강력한 기능 업데이트를 기대합니다!