OuteTTS-0.1-350M: 제로 샘플 음성 복제를 사용한 새로운 텍스트 음성 합성 방법

저자：Eve Cole 업데이트 시간：2024-11-29 14:40:33

다운코드 편집자 보고서: Oute AI는 최근 새로운 텍스트 음성 변환 합성 방법인 OuteTTS-0.1-350M을 출시했습니다. 간단한 아키텍처와 효율적인 WavTokenizer를 갖춘 LLaMa 아키텍처를 기반으로 하는 이 TTS 모델은 외부 어댑터 없이도 고품질 음성 합성을 달성합니다. 제로 샘플 음성 복제 기능이 있을 뿐만 아니라 llama.cpp와도 호환되므로 실시간 애플리케이션에 이상적입니다. OuteTTS-0.1-350M의 출시는 의심할 여지 없이 텍스트 음성 변환 기술 개발에 새로운 혁신을 가져왔습니다.

최근 Oute AI는 OuteTTS-0.1-350M이라는 새로운 텍스트 음성 변환 합성 방법을 출시했습니다. 이 접근 방식은 외부 어댑터나 복잡한 아키텍처 없이 순수한 언어 모델링을 활용하여 TTS에 대한 단순화된 접근 방식을 제공합니다. OuteTTS-0.1-350M은 LLaMa 아키텍처를 기반으로 하며 WavTokenizer를 사용하여 오디오 토큰을 직접 생성하여 프로세스를 더욱 효율적으로 만듭니다.

이 모델은 새로운 음성을 복제하는 데 단 몇 초의 참조 오디오만 필요한 제로 샘플 음성 복제 기능을 갖추고 있습니다. OuteTTS-0.1-350M은 장치 성능을 위해 설계되었으며 llama.cpp와 호환되므로 실시간 애플리케이션에 이상적입니다. 모델의 매개변수 크기는 상대적으로 작지만(3억 5천만) 성능은 더 크고 복잡한 TTS 시스템과 비슷합니다.

OuteTTS-0.1-350M의 접근성과 효율성은 개인 비서, 오디오북, 콘텐츠 현지화를 포함한 광범위한 애플리케이션에 적합합니다. Oute AI는 CC-BY 라이선스에 따라 출시되어 다양한 프로젝트에 대한 추가 실험과 통합을 장려하고 고급 TTS 기술을 민주화합니다.

OuteTTS-0.1-350M의 출시는 단순화된 아키텍처를 활용하여 최소한의 계산 요구 사항으로 고품질 음성 합성을 제공하는 텍스트 음성 변환 기술의 중요한 단계입니다. LLaMa 아키텍처를 통합하고 WavTokenizer를 사용하며 복잡한 어댑터 없이 제로 샘플 음성 복제를 수행할 수 있어 기존 TTS 모델과 구별됩니다.

주소: https://www.outeai.com/blog/OuteTTS-0.1-350M

전체적으로 OuteTTS-0.1-350M은 효율성, 단순성 및 접근성을 통해 텍스트 음성 변환 분야에 새로운 가능성을 제공하며 향후 애플리케이션에서의 성능을 기대할 가치가 있습니다. Downcodes의 편집자는 이 모델의 후속 개발에 계속해서 주의를 기울일 것입니다.