최근 Hugging Face 플랫폼에는 Kokoro라는 새로운 음성 합성 모델이 출시되어 큰 관심을 끌었습니다. 이 모델은 8,200만 개의 매개변수와 100시간 미만의 오디오 데이터만을 사용하여 자체보다 훨씬 더 많은 매개변수를 가진 모델과 비교할 수 있는 결과를 달성하며 TTS 분야 최고 수준에 속합니다. 효율적인 훈련 과정과 편리한 사용으로 음성 합성 분야에서 획기적인 발전을 이루었습니다. 이 기사에서는 Kokoro 모델의 성능, 훈련 과정, 사용법 및 제한 사항을 자세히 소개합니다.
인공지능의 급속한 발전 속에서 음성합성 기술이 주목을 받고 있다. 최근 Kokoro라는 최신 음성 합성 모델이 Hugging Face 플랫폼에 공식 출시되었습니다. 이 모델에는 8,200만 개의 매개변수가 있어 음성 합성 분야에서 중요한 이정표를 세웠습니다.
Kokoro v0.19는 출시 전 몇 주 동안 TTS(텍스트 음성 변환) 리더보드에서 1위를 차지했으며, 더 많은 매개변수를 갖춘 다른 모델보다 성능이 뛰어납니다. 모노 설정에서 이 모델은 100시간 미만의 오디오 데이터를 사용하여 467M 매개변수 XTTS v2 및 1.2B 매개변수 MetaVoice와 같은 모델에 필적하는 결과를 달성했습니다. 이 성과는 전통적인 음성 합성 모델의 성능과 매개변수, 계산 및 데이터의 양 사이의 관계가 이전에 예상했던 것보다 더 중요할 수 있음을 보여줍니다.
사용 측면에서 사용자는 Google Colab에서 몇 줄의 코드만 실행하면 모델과 음성 패키지를 로드하고 고품질 오디오를 생성할 수 있습니다. Kokoro는 현재 미국 영어와 영국 영어를 지원하며 사용자가 선택할 수 있는 다양한 음성 팩을 제공합니다.
Kokoro의 훈련 과정은 Vast.ai의 A10080GB vRAM 인스턴스를 사용하며, 임대 비용이 상대적으로 낮아 효율적인 훈련 과정을 보장합니다. 전체 모델은 20회 미만의 훈련 에포크와 100시간 미만의 오디오 데이터를 사용하여 훈련되었습니다. Kokoro 모델은 교육 시 공개 도메인 오디오 데이터와 다른 공개 라이선스의 오디오를 사용하여 데이터 규정 준수를 보장합니다.
Kokoro는 음성 합성 성능이 뛰어나지만 현재 훈련 데이터 및 아키텍처의 한계로 인해 음성 복제를 지원할 수 없으며 주요 훈련 데이터는 대화보다는 긴 읽기와 내러티브에 중점을 둡니다.
모델: https://huggingface.co/hexgrad/Kokoro-82M
체험: https://huggingface.co/spaces/hexgrad/Kokoro-TTS
가장 밝은 부분:
Kokoro-82M은 새롭게 출시된 음성 합성 모델로 8,200만 개의 매개변수를 갖추고 있으며 다양한 음성 패키지를 지원합니다.
이 모델은 TTS 분야에서 뛰어난 성능을 발휘했으며, 한때 순위 1위를 차지하기도 했습니다. 훈련에 사용된 오디오 데이터는 100시간 미만입니다.
Kokoro 모델은 규정 준수를 보장하기 위해 공개 라이선스 데이터를 사용하여 훈련되지만 현재는 몇 가지 기능적 제한이 있습니다.
전체적으로 Kokoro 모델은 음성 합성 분야에서 인상적인 잠재력을 보여주고 있으며, 효율적인 훈련과 뛰어난 성능은 주목할 만합니다. 현재는 여전히 일부 제한 사항이 있지만 지속적인 기술 개발을 통해 Kokoro는 앞으로 더 넓은 응용 시나리오를 갖게 될 것이라고 믿습니다.