Doubao Company가 출시한 최신 실시간 음성 모델은 중국어 대화 분야에서 획기적인 진전을 이루었습니다. Doubao 앱 7.2.0 새해 버전에서 완전히 출시되었습니다. 이 모델은 음성 이해와 생성을 깊이 통합하여 엔드투엔드 음성 대화 시스템을 생성합니다. 이는 음성 표현력, 제어 및 정서적 수용을 크게 향상시키며, 언제든지 대화를 중단하고 대기 시간을 단축하는 등의 기능도 갖추고 있어 더 많은 이점을 제공합니다. 사용자에게 자연스럽고 원활한 상호작용 경험을 제공합니다. 이 업데이트는 또한 대화 세부 사항의 유연한 조정, 여러 목소리와 방언의 모방, 심지어 일부 노래를 부르는 기능까지 지원하는 새로운 실시간 음성 통화 기능을 제공하여 인간-기계 대화의 현실감을 더욱 향상시킵니다.
최근 Doubao Company는 새로운 실시간 음성 모델 출시를 발표하면서 중국어 대화에서 '절벽 리드'를 달성했다고 주장하며 AI 대화 기능이 크게 향상되었습니다. 이 모델은 Doubao 앱(버전 번호 7.2.0 New Year Edition)에서 완전히 개방되어 사용자에게 더욱 풍부하고 현실적인 음성 커뮤니케이션 경험을 제공합니다.
보고서에 따르면 Doubao의 실시간 음성 대형 모델은 음성 이해와 생성의 심층적인 통합을 실현하여 종단 간 음성 대화 시스템을 형성합니다. 이러한 기술적 혁신을 통해 모델은 음성 표현력, 제어 및 정서적 수용 측면에서 매우 뛰어난 성능을 발휘할 수 있으며 대기 시간이 짧고 언제든지 대화를 중단할 수 있어 사용자의 상호 작용 경험이 크게 향상됩니다. 관계자들은 이 기술이 'IQ'를 향상시킬 뿐만 아니라 온라인 감성 지능도 갖추고 있어 감정을 더 잘 이해하고 표현할 수 있다고 밝혔습니다.
이 업데이트에는 Doubao의 최신 대형 모델을 기반으로 다양한 시나리오에서 대화 리듬, 음성, 볼륨 및 호흡 소리와 같은 세부 사항을 유연하게 조정할 수 있는 실시간 음성 통화 기능도 포함되어 있습니다. 또한, 새로운 음성 기능은 다양한 목소리를 흉내낼 수 있고, 다양한 사투리와 영어 대화를 지원하며, 심지어 일부 노래를 부를 수도 있습니다. 이 모든 것이 인간-기계 대화의 현실성을 새로운 수준으로 끌어올려 "인간과 기계를 구별하기 어려운" 지점에 거의 도달했습니다.
Doubao의 R&D 팀은 이 새로운 기술이 엔드투엔드 프레임워크를 기반으로 하며 기본 방법을 사용하여 통합 모델링을 위해 음성 및 텍스트 패턴을 심층적으로 통합한다고 밝혔습니다. 이러한 설계는 음성 인식 및 생성 과정을 최적화할 뿐만 아니라 AI가 인간과 더 잘 소통할 수 있도록 더 풍부한 '영혼'을 제공합니다.
중국어 음성 대화 분야에서 Doubao의 실시간 음성 대형 모델 출시는 사용자에게 전례 없는 대화형 경험을 제공하고 지능형 음성 기술 개발을 촉진할 것입니다.
Doubao 실시간 음성 모델의 출시는 지능형 음성 상호 작용 기술에 있어 상당한 진전을 의미하며 중국어 대화 분야에서 뛰어난 성능을 발휘한다는 점은 흥미롭습니다. 앞으로도 기술의 지속적인 발전으로 유사한 음성 모델이 사람들의 삶에 더 많은 편리함과 놀라움을 가져다 줄 것이라고 믿습니다.