Первая модель с открытым исходным кодом разговорного звука Hertz-Dev 120 мс Ультра-низкая задержка удивительной всей сети-статьи AI

Автор：Eve Cole Время обновления：2025-02-12 19:00:03

Hertz-Dev, революционная звуковая модель с открытым исходным кодом, сделал огромные волны в области AI Voice с его 8,5 миллиардами параметров и 20 миллионов часов высококачественных аудиоданных. Он реализует полнодуплексный диалог в реальном времени, а ультра-низкая латентность 120 миллисекунд является прорывом, улучшая взаимодействие человека с компьютером до беспрецедентного уровня гладкости и природы, полностью изменяя интерактивный опыт предыдущих голосовых моделей. Его основной прорыв заключается в прорыве в полнодууплексной технологии, превосходном сжатии звука, сверхдном диалоге и революционной низкой задержке, которая предоставляет разработчикам неограниченные возможности.

Революционная аудио-модель с открытым исходным кодом, Hertz-Dev, появилась и шокировала разработчики по всему миру с его удивительными показателями производительности. Этот AI Voice Monster с 8,5 миллиардами параметров успешно достиг полнодууплексного диалога в реальном времени, о котором люди мечтают через 20 миллионов часов высококачественной подготовки аудиоданных.

Самая удивительная вещь-это ультра-низкая задержка в 120 миллисекунд, которая удваивает существующую публичную модель, позволяя компьютерному диалогу на совершенно новый уровень. Представьте, что когда вы разговариваете с ИИ, вам не нужно ждать, пока другой человек закончит говорить, и вы можете прервать естественным образом, как настоящий человеческий разговор.

Основные прорывы Герца-дева включают:

Прорывная полнодуплексная технология: полностью подрывает традиционную модель вращающейся речи и реализует истинную двустороннюю связь в реальном времени

Отличное сжатие звука: при обеспечении высокого качества звука значительно снижение использования полосы пропускания

Способность диалога очень длинной: легко понять и генерировать непрерывный контент диалога

Революционная низкая задержка: 120 миллисекундная скорость отклика, создание новой эры взаимодействия в реальном времени

Как базовая модель трансформатора, ориентированная на аудио, Hertz-Dev в полной мере использует реальные данные диалога во время обучения и успешно отражает тонкие особенности в человеческой речи, включая ритмы естественной паузы и богатые эмоциональные изменения тона.

Для разработчиков это ценное сокровище с открытым исходным кодом. Они могут свободно загружать модель, настраивать ее в соответствии с конкретными сценариями приложений и создавать различные инновационные голосовые приложения. Это означает, что от роботов по обслуживанию клиентов до голосовых помощников, от образовательного обучения до развлекательного взаимодействия, мы будем вводить качественный скачок.

Адрес проекта: https://github.com/standard-intelligence/hertz-dev

Функция Hertz-Dev с открытым исходным кодом дает ему огромный потенциал разработки и будет применяться в большем количестве областей в будущем, что приведет к разработчикам и пользователям более удобный и умный опыт взаимодействия голоса. Мы с нетерпением ждем дальнейшего развития Герца-дева в будущем и принести больше инноваций в область AI Voice.