최근에는 텍스트를 오디오로 변환하는 기술이 급속히 발전하여 인공지능 분야에 새로운 활력을 불어넣고 있습니다. 이 기사에서는 속도와 효율성 면에서 놀라운 이점을 보여주고 텍스트 오디오 생성 기술의 연구 및 적용에 새로운 혁신을 가져오는 TANGOFLUX라는 새로운 모델에 중점을 둘 것입니다. TANGOFLUX 모델은 생성 속도가 빠를 뿐만 아니라 오디오 품질 및 사운드 효과 다양성 측면에서도 우수한 성능을 발휘합니다. 오픈 소스 기능은 학계와 산업계의 공동 발전에 더 도움이 됩니다.
인공지능 분야에서는 텍스트 오디오 생성 기술이 점차 연구 핫스팟으로 자리잡고 있습니다. 최근 연구자들은 뛰어난 성능과 효율성을 갖춘 TANGOFLUX라는 새로운 모델을 출시했습니다.
TANGOFLUX는 단 3.7초 만에 최대 44.1kHz 오디오를 생성할 수 있는 5억 1,500만 개의 매개변수를 갖춘 효율적인 텍스트-오디오 생성 모델입니다. 이 속도는 단일 A40 GPU에서의 성능을 매우 뛰어납니다.
TANGOFLUX의 주요 특징은 새소리, 휘파람, 폭발음 등 다양한 음향 효과를 생성할 수 있다는 것입니다. 음악 생성도 지원하지만 효과가 그다지 이상적이지는 않습니다.
텍스트-오디오 생성 모델의 주요 과제는 선호하는 쌍을 생성하는 방법입니다. LLM(대형 언어 모델)과 달리 텍스트-오디오 생성 모델에는 검증 가능한 보상 메커니즘이나 표준 답변이 부족합니다. 이 문제를 해결하기 위해 연구팀은 CLAP-Ranked Preference Optimization(CRPO)이라는 새로운 프레임워크를 제안했습니다. 프레임워크는 선호도 데이터를 반복적으로 생성하고 최적화하여 텍스트-오디오 생성 모델의 정렬 성능을 향상시킵니다. 연구에 따르면 CRPO를 사용하여 생성된 오디오 선호도 데이터는 기존 대안보다 성능이 뛰어난 것으로 나타났습니다.
이 프레임워크를 통해 TANGOFLUX는 여러 객관적이고 주관적인 벤치마크에서 최고의 성능을 달성합니다. 또한 연구팀은 텍스트 오디오 생성에 대한 더 많은 사람들의 연구를 지원하기 위해 모든 코드와 모델을 오픈 소스로 결정했습니다. 오디오 생성이 필요한 애플리케이션 시나리오의 경우 TANGOFLUX는 의심할 여지 없이 중요한 기술 발전입니다.
실용적인 효과 측면에서 TANGOFLUX는 오디오 생성 품질에서 다른 모델보다 성능이 뛰어나며 더 선명한 이벤트 사운드, 더 나은 이벤트 시퀀스 재생 및 더 높은 오디오 품질을 제공합니다. 여러 사례를 비교함으로써 사용자는 오디오 생성에 있어 TANGOFLUX의 장점을 직관적으로 느낄 수 있습니다.
프롬프트: 인간의 아름다운 휘파람 소리와 자연스러운 새소리가 조화롭게 공존하며 그 결과는 다음과 같습니다.
이 신기술의 출현으로 텍스트-오디오 생성의 응용 전망은 점점 더 넓어지고 있으며 향후 영화 및 TV 제작, 게임 음향 효과 및 기타 분야에서 중요한 역할을 할 수 있습니다.
프로젝트 입구: https://tangoflux.github.io/
하이라이트:
TANGOFLUX는 3.7초 만에 30초 분량의 고품질 오디오를 생성할 수 있는 효율적인 텍스트 오디오 생성 모델입니다.
모델 성능 및 오디오 선호도 데이터를 최적화하기 위해 CLAP-Ranked Preference Optimization(CRPO) 프레임워크가 제안되었습니다.
모든 코드와 모델은 텍스트 오디오 생성의 연구 및 적용을 촉진하는 것을 목표로 오픈 소스로 제공되었습니다.
전체적으로 TANGOFLUX 모델의 출현은 텍스트-오디오 생성 기술의 상당한 발전을 의미합니다. 효율성, 고품질 및 오픈 소스 기능은 이 분야의 추가 개발을 촉진하고 다양한 산업에 더욱 혁신적인 애플리케이션을 제공할 것입니다. 앞으로도 TANGOFLUX의 더 넓은 적용 범위와 지속적인 최적화 및 업그레이드를 기대합니다.