Doubao App, GPT-4o 이전에 노래와 역할극을 지원하는 새로운 음성 모드 출시 - AI 기사

저자：Eve Cole 업데이트 시간：2025-01-28 14:00:03

Doubao App은 2025년 1월 20일 최신 "엔드 투 엔드" 음성 대형 모델을 출시하여 실시간 음성 통화 기능을 대폭 업데이트했습니다. 이번 업데이트는 Doubao가 음성 상호작용 분야에서 상당한 진전을 이루었음을 나타냅니다. 더 이상 기존의 ASR, LLM 및 TTS 캐스케이드 솔루션에 의존하지 않고 음성 인식, 이해 및 생성을 동일한 모델에 통합하여 더 원활하고 더 많은 기능을 달성합니다. 지능형 음성 상호 작용 경험. 이번 업데이트의 초점은 음성 상호 작용의 의인화를 개선하여 AI가 인간의 감정을 더 잘 이해하고 대응할 수 있도록 하는 것입니다.

2025년 1월 20일, Doubao App은 최신 '엔드 투 엔드' 음성 모델을 공식 출시하고 실시간 음성 통화 기능에 중요한 업데이트를 실시했습니다. 이러한 발전은 음성 인식, 이해 및 통합 생성을 통합하는 ASR(자동 음성 인식), LLM(대형 언어 모델) 및 TTS(Tensheng Audio)의 이전 캐스케이드 솔루션을 능가하는 음성 상호 작용 분야에서 Doubao의 또 다른 도약을 의미합니다. 같은 모델에서.

"Smart Emergence" 테스트 결과 Doubao 새 버전의 가장 큰 특징은 인간과 유사한 표현 능력과 감정 출력을 갖추고 있어 대화의 유창함과 지능 수준이 향상되었다는 점입니다. 특히, '소울 싱어'와 '다양한 마스터' 모드를 통해 Doubao는 노래를 부를 뿐만 아니라 풍부한 역할 연기도 할 수 있어 사용자 상호 작용에서 새로운 인기를 누리고 있습니다. 예를 들어, 사용자가 Doubao에게 유명인 Yu Shuxin의 목소리를 흉내내라고 요청했을 때 Doubao는 캐릭터의 음색을 성공적으로 복제했을 뿐만 아니라 자신만의 독특한 개성을 장난스럽게 표현했습니다.

더욱 언급할 가치가 있는 점은 Doubao가 복잡한 지시나 전문적인 지시 없이 자연스러운 대화로 노래를 즉흥적으로 만들 수 있다는 것입니다. 사용자는 Doubao에게 마음대로 노래를 불러달라고 요청할 수 있으며 가사의 주제도 지정할 수 있습니다. 두바오의 연기는 가끔 작은 실수를 범하기도 했지만 반응속도와 즉흥성 능력이 놀라울 정도로 강력한 의인화 능력을 보여줬다.

이 밖에도 두바오에 새로 추가된 두 가지 개성 모드인 '작은 가방'과 '과장된 주인'도 사용자들에게 신선함을 선사한다. 이러한 성격 패턴을 통해 Doubao는 다양한 상황에서 다양한 감정과 스타일을 표현함으로써 상호 작용의 재미와 현실성을 향상시킵니다.

오늘날 음성 상호 작용 기술의 발전이 증가함에 따라 Doubao의 이번 업데이트는 AI의 적용 시나리오를 감정적 동반자 관계, 심리 상담 및 기타 분야로 확장할 뿐만 아니라 AI의 감정적 의사 소통 기능을 인간에게 더 가깝게 만듭니다. 이러한 변화는 의심할 여지 없이 Doubao가 경쟁이 치열한 시장에서 자리를 차지하고 AI 상호 작용의 미래 개발을 주도할 수 있게 해줄 것입니다.

이번 Doubao 앱 업데이트는 기술의 획기적인 발전을 이룰 뿐만 아니라, 더 중요하게는 사용자 경험의 질적 도약을 달성하여 AI 상호 작용의 미래 발전을 위한 새로운 방향을 제시합니다. 후속 업데이트에서 더 많은 혁신을 기대할 가치가 있습니다. 위로.