다중 모드 대형 언어 모델(MLLM)의 급속한 개발로 인해 시각, 언어 및 음성 양식의 효과적인 통합이 연구 핫스팟이 되었습니다. 그러나 시각의 공간 정보 및 음성의 시계열 정보와 같은 다양한 모달 데이터의 본질적인 차이로 인해 발생하는 문제는 효율적인 다중 모달 상호 작용을 방해합니다. 기존 방법은 종종 독립적인 ASR 및 TTS 모듈에 의존하는데, 이는 대기 시간을 늘리고 상호 작용의 부드러움을 감소시킵니다. 본 기사에서는 이러한 문제를 해결하기 위해 시각, 언어, 음성을 통합한 다중 모드 대규모 언어 모델인 VITA-1.5를 소개합니다.
최근 MLLM(Multimodal Large Language Model), 특히 시각적 양식과 텍스트 양식의 통합에서 상당한 진전이 이루어졌습니다. 그러나 인간-컴퓨터 상호 작용의 인기가 높아짐에 따라 특히 다중 모드 대화 시스템에서 음성 양식의 중요성이 점점 더 두드러지고 있습니다. 음성은 정보 전달의 핵심 매체일 뿐만 아니라 상호 작용의 자연스러움과 편의성을 크게 향상시킵니다.
그러나 시각 데이터와 음성 데이터의 본질적인 차이로 인해 이를 MLLM에 통합하는 것은 쉽지 않습니다. 예를 들어, 시각적 데이터는 공간 정보를 전달하는 반면, 음성 데이터는 시계열의 동적 변화를 전달합니다. 이러한 근본적인 차이점은 두 가지 양식의 동시 최적화에 어려움을 가져오며 종종 훈련 과정에서 충돌로 이어집니다. 또한 기존의 음성-음성 시스템은 별도의 ASR(자동 음성 인식) 및 TTS(텍스트 음성 변환) 모듈을 사용하므로 대기 시간이 늘어나고 일관성이 떨어지므로 실시간 애플리케이션에서의 유용성이 제한됩니다.
이러한 문제를 해결하기 위해 연구원들은 시각, 언어 및 음성을 통합하는 다중 모드 대규모 언어 모델인 VITA-1.5를 출시했습니다. VITA-1.5는 신중하게 설계된 3단계 훈련 방법을 사용하여 시각적 및 음성 데이터를 점진적으로 도입하여 강력한 다중 모드 성능을 유지하면서 모드 충돌을 완화합니다.
첫 번째 단계에서 모델은 시각적 언어 훈련에 중점을 두고 시각적 어댑터를 훈련하여 강력한 시각적 기능을 구축하고 설명 캡션과 시각적 질문 및 답변 데이터를 사용하여 모델을 미세 조정합니다.
두 번째 단계에서는 음성 전사 쌍 데이터를 사용하여 오디오 인코더를 훈련한 다음 음성 질문 및 답변 데이터를 사용하여 미세 조정하여 모델이 오디오 입력을 효과적으로 이해하고 응답할 수 있도록 오디오 입력 처리를 도입합니다. 마지막으로, 세 번째 단계에서 오디오 디코더는 외부 TTS 모듈 없이 종단 간 음성 출력을 달성하도록 훈련되어 VITA-1.5가 부드러운 음성 응답을 생성하고 다중 모드 대화의 자연스러움과 상호 작용성을 향상시킬 수 있습니다. 시스템.
VITA-1.5의 전체 아키텍처에는 대규모 언어 모델에 연결하기 위한 시각적 및 오디오 인코더와 어댑터가 포함되어 있습니다. 출력에는 원래 VITA-1.0 버전과 같은 외부 TTS 모델을 사용하는 대신 종단 간 음성 생성 모듈이 있습니다. 시각적 인코더는 InternViT-300M을 사용하고, 입력 이미지 크기는 448×448 픽셀이며, 각 이미지는 256개의 시각적 토큰을 생성합니다.
고해상도 이미지의 경우 VITA-1.5는 동적 패치 전략을 채택하여 로컬 세부 정보를 캡처합니다. 비디오는 비디오 길이에 따라 프레임이 샘플링되는 특별한 다중 이미지 입력 유형으로 처리됩니다. 오디오 코딩 모듈은 출력 프레임 속도가 12.5Hz인 다중 다운샘플링 컨벌루션 레이어와 24개의 변환기 블록으로 구성됩니다. 오디오 어댑터는 2배 다운샘플링을 사용하는 여러 컨벌루션 레이어로 구성됩니다. TiCodec은 연속 음성 신호를 40Hz 주파수의 개별 음성 토큰으로 인코딩하고 이를 24,000Hz 샘플링 속도의 음성 신호로 다시 디코딩할 수 있는 코덱 모델로 사용됩니다. 모델이 음성 토큰을 출력할 수 있도록 하기 위해 텍스트 토큰 뒤에 두 개의 음성 디코더, 즉 비자동회귀(NAR) 음성 디코더와 자동회귀(AR) 음성 디코더가 추가됩니다.
VITA-1.5의 학습 데이터는 중국어, 영어를 포함한 자막 데이터, 질문 및 답변 데이터 등 광범위한 카테고리를 포괄합니다. 다양한 훈련 단계에서 전체 데이터세트의 하위 집합이 선택적으로 샘플링되어 다양한 목표를 달성합니다. 훈련 전략은 세 단계로 수행됩니다.
첫 번째 단계: 시각적 정렬, 시각적 이해 및 시각적 감독 미세 조정을 포함한 시각적 언어 훈련은 시각과 언어 사이의 격차를 해소하고 모델이 이미지 내용을 이해하고 시각적 질문에 답할 수 있도록 하는 것을 목표로 합니다.
2단계: 오디오 정렬 및 오디오 감독 미세 조정을 포함한 오디오 입력 조정은 모델이 오디오 입력을 이해하고 음성 질문 및 텍스트 답변을 통해 상호 작용할 수 있도록 설계되었습니다.
세 번째 단계: 코덱 교육 및 NAR + AR 디코더 교육을 포함한 오디오 출력 조정은 모델이 음성 출력을 생성하고 엔드투엔드 음성 상호 작용을 달성할 수 있도록 설계되었습니다.
연구원들은 이미지, 비디오 및 음성 이해에 대한 다양한 벤치마크에 대해 광범위한 평가를 수행하고 그 결과를 오픈 소스 및 독점 모델과 비교했습니다. 결과에 따르면 VITA-1.5는 이미지 및 비디오 작업에 있어 선도적인 MLLM에 필적하는 인식 및 추론 기능을 나타내며 음성 기능이 크게 향상되었습니다. 예를 들어 이미지 이해 벤치마크에서 VITA-1.5는 최첨단 오픈 소스 모델과 동등한 성능을 발휘하며 일부 폐쇄 소스 모델을 능가하기도 합니다. 비디오 이해 측면에서 VITA-1.5는 최고의 오픈 소스 모델과 동등한 성능을 발휘합니다. 또한 VITA-1.5는 중국어와 영어 ASR 작업 모두에서 전문 음성 모델을 능가하는 최고의 정확도를 달성했습니다.
전반적으로 VITA-1.5는 신중하게 설계된 3단계 훈련 전략을 통해 시각과 음성을 성공적으로 통합하여 강력한 시각 및 음성 이해 기능을 달성하고 별도의 ASR 또는 TTS 모듈에 의존하지 않고도 효율적인 음성 대 음성 상호 작용을 가능하게 합니다. 본 연구는 실시간 다중 모드 상호 작용 분야에서 오픈 소스 모델의 발전을 촉진할 것으로 기대됩니다.
프로젝트 주소: https://github.com/VITA-MLLM/VITA
VITA-1.5의 등장은 다중 모드 대규모 언어 모델 개발의 새로운 단계를 의미합니다. 엔드투엔드 음성 생성 기능과 이미지, 비디오 및 음성 이해 작업의 탁월한 성능은 보다 자연스럽고 원활한 언어 모델을 구축할 것입니다. 미래를 위한 다중 모드 언어 모델 동적 대화형 시스템은 새로운 가능성을 제공합니다. 이번 연구 결과는 주목할 만하며, 실제 활용에 중요한 역할을 할 것으로 기대된다.