Fish Audio는 새로운 음성 처리 모델 인 Fish Agent V0.13B를 출시하여 음성을 효율적이고 정확하게 생성하고 처리 할 수 있으며 다른 사운드를 시뮬레이션하고 복제하는 데 능숙합니다. 이 모델은 QWEN-2.5-3B 비율을 기반으로 미리 훈련되며 200 억 개의 음성 및 텍스트 토큰이 포함 된 대규모 데이터 세트를 사용합니다. 그것의 혁신은 사운드 레벨에서 음성을 직접 처리하는 "시맨틱 토큰 프리"아키텍처를 채택하여 속도와 효율성을 향상시켜 "즉각적인"음성 클로닝 및 텍스트 음성 변환을 실현하여 200 밀리 초 밖에 걸리지 않습니다. 이 모델은 여러 언어를 지원하고 오픈 소스이며 AI 음성 기술 개발에 새로운 가능성을 제공합니다.
최근에 Fish Audio는 새로운 음성 처리 모델 v0.13b를 출시했습니다. 이것은 우리가 자연스럽고 반응이 좋은 AI 음성 보조원을 갖는 데 한 걸음 더 가까이 있다는 것을 의미합니다.
Fish Agent V0.13B 모델은 Qwen-2.5-3B-비를 기준으로 미리 훈련되며 2 천억 개의 음성 및 텍스트 토큰이 포함 된 대규모 데이터 세트를 사용합니다. 어류 에이전트 V0.13B는 언어를 복잡한 의미 인코딩으로 먼저 변환 해야하는 전통적인 모델과 달리 "Semanticless Token"이라는 아키텍처를 채택하여 소리 수준에서 직접 연설을 처리하고 생성합니다. 이 직접 처리는 모델 구조를 단순화 할뿐만 아니라 모델의 반응 속도와 효율을 향상시킵니다.
이 혁신적인 아키텍처 덕분에 Fish Agent V0.13B는 고품질의 음성을 빠르고 자연스럽게 생성하여 200 밀리 초 만에 TTFA (Text-to-Audio 변환 시간)와 함께 "즉각적인"음성 클로닝 및 텍스트 음성 변환을 가능하게합니다. . 이 기능을 사용하면 음성 어시스턴트, 자동 고객 서비스 및 빠른 음성 피드백이 필요한 기타 시나리오와 같은 실시간 음성 생성이 필요한 애플리케이션 시나리오에 이상적입니다.
Fish Agent V0.13B 모델은 영어, 중국어, 독일어, 일본어, 프랑스어, 스페인어, 한국 및 아랍어를 포함한 여러 언어를 지원하며 교육을 위해 약 70 만 시간의 다국어 오디오 데이터를 사용합니다. 이것은 여러 언어와 상황을 처리 할 수 있고 실제 사람에게 더 자연스럽고 밀접한 발음을 생성 할 수 있음을 의미합니다.
어류 에이전트 V0.13B는 음성 음성 연석 생성 및 텍스트 음성 연설 전환 기능 외에도 다음과 같은 주요 기능이 있습니다.
제로 샘플 음성 복제 : 훈련없이 음성 복제를 달성 할 수 있습니다.
단순화 된 3B 매개 변수 : 개발을 쉽게하기 위해 30 억 매개 변수를 사용하십시오.
텍스트 및 오디오 입력을 지원합니다 : 유연한 멀티 입력 방법.
현재 Fish Audio는 Fish Agent V0.13B 모델을 공개했으며 사용자 경험을위한 예비 데모 버전을 제공합니다. 이 모델의 출시는 AI 음성 기술의 개발을 더욱 촉진하고 음성 비서 및 가상 인과 같은 응용 프로그램에 더 많은 가능성을 가져올 것입니다.
github : https://github.com/fishaudio/fish-speech
물고기 에이전트 데모 : https://huggingface.co/spaces/fishaudio/fish-agent
모델 다운로드 : https://huggingface.co/fishaudio/fish-agent-v0.1-3b
기술 보고서 : https://arxiv.org/abs/2411.01156
Fish Agent V0.13B 모델의 오픈 소스 릴리스는 AI Voice Field의 연구 및 적용에 새로운 혁신을 가져올 것이며, 향후 음성 기술 개발에서 그 역할을 기대할 가치가 있습니다. 더 많은 개발자가 참여하고 AI 음성 기술의 발전을 공동으로 홍보 할 수 있기를 바랍니다.