Редактор Downcodes узнал, что новейшая модель обработки речи Fish Agent V0.13B, выпущенная компанией Fish Audio, произвела фурор в области искусственной речи благодаря своим эффективным и точным возможностям генерации и обработки речи. Эта модель особенно хороша в имитации и клонировании различных звуков, значительно повышает точность и скорость реакции голосового помощника с искусственным интеллектом, а также обеспечивает пользователям более естественное и плавное голосовое взаимодействие. Его инновационная архитектура обеспечивает «мгновенное» клонирование голоса и преобразование текста в речь со временем преобразования всего 200 миллисекунд, что позволяет ему продемонстрировать большой потенциал в приложениях для генерации голоса в реальном времени, таких как голосовые помощники и автоматизированное обслуживание клиентов.
Благодаря этой инновационной архитектуре Fish Agent V0.13B способен быстро и естественно генерировать высококачественную речь, обеспечивая «мгновенное» клонирование речи и преобразование текста в речь со временем преобразования текста в аудио (TTFA) всего 200 миллисекунд. Эта функция делает его идеальным для сценариев приложений, требующих генерации речи в реальном времени, таких как голосовые помощники, автоматизированное обслуживание клиентов и других сценариев, требующих быстрой голосовой обратной связи.
Модель Fish Agent V0.13B поддерживает несколько языков, включая английский, китайский, немецкий, японский, французский, испанский, корейский и арабский, и была обучена с использованием около 700 000 часов многоязычных аудиоданных. Это означает, что он может обрабатывать несколько языков и контекстов и генерировать речь, которая более естественна и близка к тому, что произнес бы реальный человек.
В дополнение к возможностям генерации речи в речь и преобразования текста в речь, Fish Agent V0.13B также включает в себя следующие ключевые функции:
Клонирование голоса с нулевой выборкой. Клонирование голоса можно выполнить без обучения.
Оптимизированные параметры 3B: используйте 3 миллиарда параметров для облегчения разработки.
Поддержка ввода текста и звука: гибкие методы ввода.
В настоящее время Fish Audio открыла исходный код модели Fish Agent V0.13B и предоставила пользователям предварительную демо-версию. Выпуск этой модели будет способствовать дальнейшему развитию голосовых технологий искусственного интеллекта и расширит возможности таких приложений, как голосовые помощники и виртуальные люди.
GitHub: https://github.com/fishaudio/fish-speech
Демо-версия Fish Agent: https://huggingface.co/spaces/fishaudio/fish-agent
Загрузка модели: https://huggingface.co/fishaudio/fish-agent-v0.1-3b
Технический отчет: https://arxiv.org/abs/2411.01156.
Выпуск Fish Agent V0.13B с открытым исходным кодом знаменует собой новую веху в голосовых технологиях искусственного интеллекта, предоставляя разработчикам и исследователям мощные инструменты, а также указывает на то, что голосовые приложения искусственного интеллекта в будущем станут богаче и удобнее. Мы с нетерпением ждем, когда Fish Audio принесет больше инноваций в области голоса с использованием искусственного интеллекта!