L'application Doubao lance un nouveau mode vocal, permettant de chanter et de jouer un rôle avant GPT-4o - Article AI

Auteur：Eve Cole Date de mise à jour：2025-01-28 14:00:03

L'application Doubao a publié le dernier grand modèle vocal « de bout en bout » le 20 janvier 2025, apportant une mise à jour majeure de la fonction d'appel vocal en temps réel. Cette mise à jour marque que Doubao a fait des progrès significatifs dans le domaine de l'interaction vocale. Il ne s'appuie plus sur les solutions traditionnelles en cascade ASR, LLM et TTS, mais intègre la reconnaissance, la compréhension et la génération vocales dans le même modèle, obtenant ainsi une expérience plus fluide. expérience d'interaction vocale intelligente. L’objectif de cette mise à jour est d’améliorer l’anthropomorphisme de l’interaction vocale, permettant à l’IA de mieux comprendre et répondre aux émotions humaines.

Le 20 janvier 2025, l'application Doubao a officiellement publié son dernier modèle vocal « de bout en bout » et a apporté d'importantes mises à jour à la fonction d'appel vocal en temps réel. Ces progrès marquent un nouveau pas en avant pour Doubao dans le domaine de l'interaction vocale, dépassant les précédentes solutions en cascade d'ASR (reconnaissance automatique de la parole), LLM (grand modèle de langage) et TTS (Tensheng Audio), intégrant la reconnaissance, la compréhension et la génération vocales. dans le même modèle.

Après avoir été testée par « Smart Emergence », le plus grand point fort de la nouvelle version de Doubao est qu'elle possède une capacité d'expression et une production émotionnelle de type humain, améliorant ainsi la fluidité et le niveau d'intelligence du dialogue. En particulier, les modes « chanteur d'âme » et « diverses célébrités » permettent à Doubao non seulement de chanter, mais également de réaliser des jeux de rôle riches, devenant ainsi un nouveau favori pour l'interaction des utilisateurs. Par exemple, lorsque les utilisateurs ont demandé à Doubao d'imiter la voix de la célébrité Yu Shuxin, Doubao a non seulement réussi à reproduire le ton du personnage, mais a également exprimé de manière ludique sa propre personnalité unique.

Ce qui mérite encore plus d'être mentionné, c'est que Doubao est capable d'improviser des chansons dans des conversations naturelles sans avoir besoin d'instructions compliquées ou de conseils professionnels. Les utilisateurs peuvent demander à Doubao de chanter à volonté, et même préciser le thème des paroles. Bien que la performance de Doubao ait parfois commis de petites erreurs, sa vitesse de réaction et sa capacité d'improvisation étaient étonnantes, démontrant sa forte capacité anthropomorphique.

De plus, les deux nouveaux modes de personnalité de Doubao, à savoir « le petit sac » et « le maître exagéré », apportent également de la fraîcheur aux utilisateurs. Ces modèles de personnalité permettent à Doubao d'exprimer différentes émotions et styles dans différentes situations, améliorant ainsi le plaisir et le réalisme des interactions.

Aujourd'hui, avec le développement croissant de la technologie d'interaction vocale, cette mise à jour de Doubao étend non seulement les scénarios d'application de l'IA à des domaines tels que la camaraderie émotionnelle et le conseil psychologique, mais rapproche également les capacités de communication émotionnelle de l'IA des humains. Cette transformation permettra sans aucun doute à Doubao d'occuper une place sur un marché hautement concurrentiel et de diriger le développement futur de l'interaction IA.

Cette mise à jour de l'application Doubao réalise non seulement une percée technologique, mais, plus important encore, réalise un saut qualitatif dans l'expérience utilisateur, ouvrant une nouvelle direction pour le développement futur de l'interaction de l'IA, et il vaut la peine d'attendre avec impatience davantage d'innovations à l'avenir.