Le dernier modèle de parole en temps réel publié par la société Doubao a réalisé des progrès révolutionnaires dans le domaine du dialogue chinois. Il est entièrement lancé dans la version 7.2.0 du Nouvel An de l'application Doubao. Ce modèle intègre profondément la compréhension et la génération de la parole pour créer un système de dialogue vocal de bout en bout, qui améliore considérablement l'expressivité, le contrôle et l'acceptation émotionnelle de la parole. Il possède également des fonctions telles qu'une faible latence et l'interruption des conversations à tout moment, apportant plus d'avantages. aux utilisateurs. Expérience interactive naturelle et fluide. Cette mise à jour apporte également une nouvelle fonction d'appel vocal en temps réel, qui prend en charge un ajustement flexible des détails de la conversation, l'imitation de plusieurs voix et dialectes, et même la possibilité de chanter certaines chansons, améliorant encore le réalisme du dialogue homme-machine.
Récemment, la société Doubao a annoncé le lancement de son nouveau modèle de parole en temps réel, affirmant avoir atteint une « avance de falaise » dans le dialogue chinois, marquant une amélioration significative des capacités de dialogue de l'IA. Ce modèle est entièrement ouvert dans l'application Doubao (numéro de version 7.2.0 New Year Edition), offrant aux utilisateurs une expérience de communication vocale plus riche et plus réaliste.
Selon les rapports, le grand modèle de parole en temps réel de Doubao réalise une intégration profonde de la compréhension et de la génération de la parole, formant ainsi un système de dialogue vocal de bout en bout. Cette avancée technologique permet au modèle d'être très performant en termes d'expressivité vocale, de contrôle et d'acceptation émotionnelle. Il présente une faible latence et la possibilité d'interrompre les conversations à tout moment, ce qui améliore considérablement l'expérience interactive de l'utilisateur. Les responsables ont déclaré que cette technologie améliore non seulement le « QI », mais dispose également d'une intelligence émotionnelle en ligne, lui permettant de mieux comprendre et exprimer ses émotions.
Cette mise à jour comprend également une fonction d'appel vocal en temps réel, qui s'appuie sur le dernier grand modèle de Doubao et peut ajuster de manière flexible des détails tels que le rythme de la conversation, la voix, le volume et les sons respiratoires dans différents scénarios. De plus, la nouvelle fonction vocale peut également imiter différentes voix, prendre en charge plusieurs dialectes et conversations en anglais, et même avoir la possibilité de chanter certaines chansons. Tout cela a porté le réalisme du dialogue homme-machine à un nouveau niveau, atteignant presque le point où il est « difficile de distinguer l'homme de la machine ».
L'équipe R&D de Doubao a déclaré que cette nouvelle technologie est basée sur un cadre de bout en bout et utilise des méthodes natives pour intégrer profondément les modèles de parole et de texte pour une modélisation unifiée. Une telle conception optimise non seulement le processus de reconnaissance et de génération de la parole, mais donne également à l'IA une « âme » plus riche afin qu'elle puisse mieux communiquer avec les humains.
Le lancement du grand modèle vocal en temps réel de Doubao dans le domaine du dialogue vocal chinois offrira aux utilisateurs une expérience interactive sans précédent et favorisera le développement de la technologie vocale intelligente.
Le lancement du modèle vocal en temps réel Doubao marque un progrès significatif dans la technologie d'interaction vocale intelligente, et ses performances exceptionnelles dans le domaine du dialogue chinois sont passionnantes. À l'avenir, avec le développement continu de la technologie, je pense que des modèles vocaux similaires apporteront plus de commodité et de surprises à la vie des gens.