영어 | 简体中文 | 포르투갈어 | 일본어 | 한국어
이 코드베이스와 모든 모델은 CC-BY-NC-SA-4.0 라이선스에 따라 출시됩니다. 자세한 내용은 라이선스를 참조하세요.
제로샷 및 퓨샷 TTS: 10~30초 보컬 샘플을 입력하여 고품질 TTS 출력을 생성합니다. 자세한 지침은 음성 복제 모범 사례를 참조하세요.
다국어 및 교차 언어 지원: 언어에 대해 걱정할 필요 없이 다국어 텍스트를 입력 상자에 복사하여 붙여넣기만 하면 됩니다. 현재 영어, 일본어, 한국어, 중국어, 프랑스어, 독일어, 아랍어, 스페인어를 지원합니다.
음소 의존성 없음: 이 모델은 강력한 일반화 기능을 갖추고 있으며 TTS의 음소에 의존하지 않습니다. 모든 언어 스크립트의 텍스트를 처리할 수 있습니다.
매우 정확함: 5분 분량의 영어 텍스트에 대해 약 2%의 낮은 CER(문자 오류율) 및 WER(단어 오류율)을 달성합니다.
빠름: fish-tech 가속을 사용하면 실시간 비율은 Nvidia RTX 4060 노트북에서 약 1:5, Nvidia RTX 4090에서 1:15입니다.
WebUI 추론: Chrome, Firefox, Edge 및 기타 브라우저와 호환되는 사용하기 쉬운 Gradio 기반 웹 UI가 특징입니다.
GUI 추론: API 서버와 원활하게 작동하는 PyQt6 그래픽 인터페이스를 제공합니다. 리눅스, 윈도우, macOS를 지원합니다. GUI를 참조하세요.
배포 친화적: Linux, Windows 및 MacOS에 대한 기본 지원을 통해 추론 서버를 쉽게 설정하여 속도 손실을 최소화합니다.
우리는 코드베이스의 불법 사용에 대해 어떠한 책임도 지지 않습니다. DMCA 및 기타 관련 법률에 대해서는 현지 법률을 참조하세요.
물고기 오디오
추론.ipynb
영어
중국어
일본어
포르투갈어(브라질)
영어
중국어
일본어
포르투갈어(브라질)
VITS2(다니일로브니코프)
버트-VITS2
GPT VITS
MQTTS
GPT 빠른
GPT-SoVITS
6Block의 데이터 처리 후원자
Fish Audio는 Lepton.AI에서 제공됩니다.