Comparez Google NotebookLM ! Modèle de génération de parole PlayDialog : peut générer des podcasts et des narrations de conversations

Auteur：Eve Cole Date de mise à jour：2024-11-28 10:24:01

Play AI lance en grande pompe son dernier chef-d'œuvre : la version bêta de PlayDialog, un modèle vocal d'IA capable de générer de l'audio de podcast conversationnel. Il peut non seulement ajuster l'intonation, l'émotion et la vitesse de parole en fonction du contexte historique de la conversation, obtenir une synthèse vocale plus naturelle, mais également créer une expérience de communication vocale immersive, qui peut être qualifiée de nouvelle étape dans le dialogue homme-machine. L'éditeur de Downcodes expliquera en détail les puissantes fonctions de PlayDialog et de son outil de support PlayNote.

Récemment, Play AI a officiellement lancé son produit le plus ambitieux, la version bêta de PlayDialog, capable de générer de l'audio de podcast conversationnel.

Ce modèle vocal d'IA de bout en bout utilise le contexte historique de la conversation pour contrôler l'intonation, les émotions et la vitesse de la parole afin d'obtenir une synthèse vocale plus naturelle, marquant un nouveau niveau de dialogue homme-machine. PlayDialog est particulièrement adapté à la création d'expériences de dialogue réelles, telles que la narration, le doublage vocal, les podcasts synthétisés, etc. Il peut également fournir une expérience de communication vocale immersive en tête-à-tête dans un environnement professionnel, similaire à NotebookLM de Google.

Dans le même temps, Play AI a également lancé PlayNote, un outil capable de convertir une variété de fichiers multimédias (tels que PDF, texte, vidéo, etc.) en expériences conversationnelles. Les utilisateurs peuvent générer des podcasts, des présentations, des narrations et même des histoires pour enfants en quelques minutes, et profiter des effets vocaux fluides et naturels apportés par PlayDialog. La particularité de PlayNote est qu'il fournit également une interface API, permettant aux utilisateurs de réaliser facilement une génération programmatique de contenu audio sans dépendre de l'interface utilisateur.

La version bêta de PlayDialog a été formée sur des centaines de millions de conversations réelles. La taille du modèle est environ dix fois supérieure à celle de Play AI3.0mini et peut correspondre aux performances de la parole humaine en termes d'intonation (comme la cadence de la voix et la vitesse de la voix). discours). Lors des tests à l'aveugle, la version bêta de PlayDialog a obtenu des résultats deux fois supérieurs à ceux des principaux modèles concurrents du marché, obtenant notamment les meilleures notes en termes d'expressivité.

Contrairement aux modèles vocaux précédents, PlayDialog bêta peut comprendre le contexte de l'ensemble de la conversation, affectant ainsi l'effet de la génération vocale. Play AI a construit une nouvelle architecture appelée Adaptive Speech Contextualizer (ASC), qui permet au modèle de répondre en utilisant l'historique complet de la conversation, de sorte que chaque phrase ne soit pas une sortie isolée, mais riche ayant le bon ton, l'émotion et la bonne. le ton donne au podcast résultant l'impression que l'auditeur communique dans le même espace que l'orateur.

Qu'il s'agisse d'une discussion dynamique ou d'un sujet sensible qui nécessite de l'empathie, PlayDialog s'adapte de manière transparente, rendant les interactions plus naturelles et humaines.

Les utilisateurs peuvent découvrir tout cela avec PlayNote, en l'utilisant pour créer des narrations puissantes et naturelles, des podcasts, des présentations et bien plus encore en quelques minutes seulement. PlayNote est également disponible via une interface API, permettant aux développeurs de générer par programme un contenu attrayant à grande échelle.

Entrée Tia : https://play.ai/playnote

Introduction officielle du blog : https://blog.play.ai/blog/introducing-playdialog

L’émergence de PlayDialog et PlayNote poussera sans aucun doute la technologie de synthèse vocale de l’IA vers de nouveaux sommets et apportera des changements révolutionnaires à la production de podcasts, à la communication vocale et à d’autres domaines. Nous attendons avec impatience d’autres innovations surprenantes de Play AI à l’avenir !