Плавный диалог между человеком и машиной является важной целью в области искусственного интеллекта. Однако у ИИ часто возникают проблемы с оценкой «конца раунда», что приводит к ухудшению качества общения. Пользователи часто сталкиваются с перебоями или задержками в реагировании ИИ, что серьезно влияет на эффективность и естественность взаимодействия человека с компьютером. Традиционные методы обнаружения голосовой активности (VAD) слишком просты, на них легко влияет окружающий шум и паузы пользователя, и они не могут точно определить окончание разговора.
В мире человеко-машинного диалога самое неприятное — «Вы закончили говорить?» Это предложение может показаться простым, но оно стало препятствием, которое не могут преодолеть бесчисленные голосовые помощники и роботы службы поддержки клиентов. Часто ли вы сталкиваетесь с такой ситуацией: вы просто остановились на мгновение, чтобы подумать, что сказать дальше, но ИИ не может дождаться ответа, или вы явно закончили говорить, но ИИ все еще ждет; тупо, пока ты не можешь не сказать: «Я закончил», и он не реагирует. Этот опыт просто безумен.
Это не потому, что ИИ намеренно создает проблемы, а потому, что, когда они судят о «Конце хода» (EOT), они подобны «слепому», который только слышит, есть ли звук, но не может понять. есть ли у вас звук или нет. Еще не закончил. Традиционный метод в основном основан на обнаружении голосовой активности (VAD), которое похоже на «переключатель, активируемый голосом». Он обращает внимание только на то, есть ли голосовой сигнал. Пока нет звука, будет принято решение, что вы. закончили говорить. Могут ли это сбить с толку паузы и фоновый шум? Это слишком «Просто»!
Однако недавно компания Livekit не выдержала и решила установить на ИИ более умный «мозг». Они разработали модель точного определения поворотов речи с открытым исходным кодом. Эта модель похожа на настоящего мастера чтения мыслей и может точно определить, закончили ли вы говорить. Это не простой «переключатель с голосовым управлением», а «умный помощник», способный понять смысл ваших слов!
Самое замечательное в модели Livekit то, что она не просто полагается на «есть ли звук», а сочетает в себе модель Transformer с традиционным обнаружением голосовой активности (VAD). Это все равно, что снабдить ИИ «супермозгом» и «ухом». «Ухо Шуньфэн» отвечает за мониторинг наличия звуков, а «Супермозг» отвечает за анализ семантики этих звуков, чтобы понять, являются ли ваши слова законченными и нет ли в них незавершенного смысла. Мощная комбинация этих двух факторов действительно может обеспечить точное «обнаружение конца раунда».
Что может эта модель? Она позволяет партнерам по искусственному интеллекту, таким как голосовые помощники и роботы службы поддержки клиентов, более точно определять, закончили ли вы говорить, прежде чем начать вам отвечать. Это, несомненно, значительно улучшит плавность и естественность диалога между человеком и машиной. В будущем, общаясь с ИИ, вам больше не придется беспокоиться о том, что он «украдет» или «притворится тупым»!
Чтобы доказать свою силу, Livekit также продемонстрировал результаты своих испытаний: их новая модель способна сократить количество «неправильных прерываний» ИИ на 85%. Это означает, что ИИ становится более естественным и менее склонным к ошибочным суждениям, а разговоры людей по телефону также становятся более естественными! более плавный и приятный. Подумайте об этом: когда вы в будущем позвоните в службу поддержки, вас больше не будут расстраивать механические ответы ИИ, и вам будет так же комфортно, как при общении с реальным человеком. Этот опыт просто потрясающий!
Более того, эта модель особенно подходит для сценариев, требующих диалога между человеком и машиной, таких как голосовое обслуживание клиентов, интеллектуальные роботы вопросов и ответов и т. д. Livekit также вдумчиво показал демонстрационное видео. AI-агент в видео, получив вопрос пользователя, будет терпеливо ждать, пока пользователь закончит ввод всей информации, прежде чем дать соответствующий ответ. Это похоже на «близкого человека», который действительно понимает ваши потребности. Он не «вмешается», прежде чем вы закончите говорить, и не останется «ошеломленным», когда вы закончите говорить.
Конечно, эта модель все еще находится на стадии открытого исходного кода и еще есть много возможностей для улучшения. Но у нас есть основания полагать, что с непрерывным развитием технологий будущие разговоры между человеком и машиной станут более естественными, плавными и интеллектуальными. Возможно, однажды мы действительно забудем, что мы говорим с холодной машиной, но с «ИИ-партнером», который действительно вас понимает.
Адрес проекта: https://github.com/livekit/agents/tree/main/livekit-plugins/livekit-plugins-turn-detector
Модель с открытым исходным кодом Livekit предлагает новые идеи для решения проблемы «конца хода» в диалоге человека и компьютера, что знаменует собой шаг к более естественному и плавному взаимодействию человека с компьютером. Мы с нетерпением ожидаем дальнейшего совершенствования и применения этой модели в будущем, чтобы предоставить пользователям более удобный и интеллектуальный опыт общения между человеком и машиной.