Amazon의 AGI 팀은 최근 100,000시간의 녹음 데이터를 사용하여 훈련된 980억 개의 매개변수를 갖춘 텍스트-음성 변환 모델인 BASE TTS를 출시했습니다. 이 모델의 출시는 텍스트 음성 변환 기술의 획기적인 발전을 의미하며, 수많은 매개변수와 대규모 훈련 데이터를 통해 음성 합성의 자연스러움과 의인화 기능이 크게 향상되고 사용자에게 더 나은 음성 경험을 제공할 것으로 예상됩니다. 팀의 목표는 이 모델을 학습 애플리케이션에 적용하여 텍스트 음성 변환 애플리케이션에서 인간 음성의 품질을 더욱 향상시키는 것입니다.
Amazon AGI 팀은 980억 개의 매개변수를 포함하고 100,000시간의 녹음 데이터를 사용하여 훈련된 역대 최대 규모의 텍스트 음성 변환 모델인 BASE TTS를 출시했습니다. 팀은 텍스트 음성 변환 애플리케이션에서 인간 음성의 품질을 향상시키기 위해 학습 애플리케이션에 이 모델을 사용할 계획입니다.
BASE TTS 모델의 출시는 인공 지능 분야에서 Amazon의 강력한 강점과 미래 음성 기술에 대한 비전을 보여주며 보다 자연스럽고 현실적인 인공 음성의 도래를 예고하여 다양한 애플리케이션 시나리오에 더 풍부한 가능성을 제공합니다. 앞으로는 BASE TTS가 더 많은 분야에서 역할을 하여 사용자들에게 더욱 편리하고 좋은 서비스를 제공할 것으로 기대됩니다.