OpenAI est sur le point de lancer la très attendue version Alpha du mode vocal pour les abonnés ChatGPT Plus. Cette fonctionnalité est basée sur son modèle phare GPT-4o et améliore considérablement l'expérience d'interaction vocale. Le modèle GPT-4o peut traiter l'entrée audio à une vitesse proche de celle de la réaction humaine et combine un entraînement de bout en bout de trois modalités : texte, vision et audio, démontrant ainsi la dernière avancée d'OpenAI dans le domaine de l'IA multimodale. Auparavant, le déploiement de cette fonctionnalité avait été retardé en raison de la nécessité d'améliorer la modération du contenu des modèles et la construction de l'infrastructure. Cette mise à jour résoudra non seulement le problème du retard excessif dans le mode vocal ChatGPT existant, mais offrira également aux utilisateurs une expérience de conversation vocale plus fluide et plus naturelle.
Lorsque le modèle phare d'OpenAI, le GPT-4o (o signifie omni), a été lancé en mai, ses capacités de compréhension audio ont attiré beaucoup d'attention. Le modèle GPT-4o était capable de répondre à une entrée audio en 320 millisecondes en moyenne, ce qui est similaire au temps de réaction des humains dans une conversation typique.
OpenAI a également annoncé que la fonctionnalité de mode vocal de ChatGPT exploitera les capacités audio du modèle GPT-4o pour offrir aux utilisateurs une expérience de conversation vocale transparente. Concernant les capacités vocales de GPT-4o, l’équipe OpenAI a écrit :
Avec GPT-4o, nous avons formé un tout nouveau modèle qui entraîne les trois modalités de texte, de vision et d'audio de bout en bout, c'est-à-dire que toutes les entrées et sommes sont traitées par le même réseau neuronal. Puisque GPT-4o est notre premier modèle à combiner toutes ces modalités, nous n’avons encore qu’effleuré le potentiel et les limites de notre modèle.
En juin, OpenAI a annoncé son intention de déployer ultérieurement le mode jargon avancé en version alpha auprès d'un petit groupe d'utilisateurs de ChatGPT Plus, mais les plans ont été retardés d'un mois en raison de la nécessité d'améliorer la capacité du modèle à détecter et à rejeter certains contenus. . De plus, OpenAI prépare son infrastructure à s'adapter à des millions d'utilisateurs tout en conservant une réactivité en temps réel.
Désormais, Sam Altman, PDG d'OpenAI, a confirmé via X que la version Alpha du mode vocal sera déployée pour les abonnés ChatGPT Plus à partir de la semaine prochaine.
Le mode vocal ChatGPT actuel n'est pas intuitif à utiliser en raison du délai moyen de 2,8 secondes (GPT3.5) et 5,4 secondes (GPT-4). Le prochain mode vocal avancé basé sur GPT-4o permettra aux abonnés ChatGPT d'avoir des conversations fluides et sans décalage.
De plus, OpenAI a également publié aujourd'hui le très attendu SearchGPT, qui est leur nouvelle tentative d'expérience de recherche sur le Web. Actuellement prototype, SearchGPT fournit des capacités de recherche par intelligence artificielle qui peuvent fournir rapidement des réponses précises à partir de sources claires et pertinentes. Vous pouvez en savoir plus ici.
Au total, la série de mises à jour d'OpenAI montre sa capacité à continuer à innover dans le domaine de l'intelligence artificielle. En particulier, l'application du modèle GPT-4o améliorera considérablement l'expérience utilisateur, et la sortie de SearchGPT annonce une nouvelle direction pour. développement futur des moteurs de recherche. Nous attendons avec impatience les innovations technologiques plus surprenantes apportées par OpenAI à l’avenir.