OpenAI está a punto de lanzar la muy esperada versión Alpha del modo de voz para los suscriptores de ChatGPT Plus. Esta función se basa en su modelo insignia GPT-4o y mejora significativamente la experiencia de interacción de voz. El modelo GPT-4o puede procesar la entrada de audio a una velocidad cercana a la reacción humana y combina el entrenamiento de un extremo a otro de tres modalidades: texto, visión y audio, lo que demuestra el último avance de OpenAI en el campo de la IA multimodal. Anteriormente, el lanzamiento de esta función se retrasó debido a la necesidad de mejorar la moderación del contenido del modelo y la construcción de infraestructura. Esta actualización no solo resolverá el problema del retraso excesivo en el modo de voz ChatGPT existente, sino que también brindará a los usuarios una experiencia de conversación de voz más fluida y natural.
Cuando en mayo se lanzó el modelo insignia de OpenAI, GPT-4o (o significa omni), sus capacidades de comprensión de audio atrajeron mucha atención. El modelo GPT-4o pudo responder a una entrada de audio en un promedio de 320 milisegundos, que es similar al tiempo de reacción de los humanos en una conversación típica.
OpenAI también anunció que la función de modo de voz de ChatGPT aprovechará las capacidades de audio del modelo GPT-4o para brindar a los usuarios una experiencia de conversación de voz perfecta. Con respecto a las capacidades de voz de GPT-4o, el equipo de OpenAI escribió:
Con GPT-4o, entrenamos un modelo completamente nuevo que entrena las tres modalidades de texto, visual y audio de un extremo a otro, es decir, todas las entradas y sumas son procesadas por la misma red neuronal. Dado que GPT-4o es nuestro primer modelo que combina todas estas modalidades, todavía solo hemos arañado la superficie del potencial y las limitaciones de nuestro modelo.
En junio, OpenAI anunció planes para implementar el modo de jerga avanzado en alfa para un pequeño grupo de usuarios de ChatGPT Plus en una fecha posterior, pero los planes se retrasaron un mes debido a la necesidad de mejorar la capacidad del modelo para detectar y rechazar cierto contenido. . Además, OpenAI está preparando su infraestructura para escalar a millones de usuarios mientras mantiene la capacidad de respuesta en tiempo real.
Ahora, el CEO de OpenAI, Sam Altman, confirmó a través de X que la versión Alpha del modo de voz se implementará para los suscriptores de ChatGPT Plus a partir de la próxima semana.
El modo de voz ChatGPT actual no es intuitivo de usar debido al retraso promedio de 2,8 segundos (GPT3.5) y 5,4 segundos (GPT-4). El próximo modo de voz avanzado basado en GPT-4o permitirá a los suscriptores de ChatGPT tener conversaciones fluidas y sin demoras.
Además, OpenAI también lanzó hoy el muy esperado SearchGPT, que es su nuevo intento de experiencia de búsqueda web. SearchGPT, actualmente un prototipo, proporciona capacidades de búsqueda de inteligencia artificial que pueden proporcionar rápidamente respuestas precisas de fuentes claras y relevantes. Puedes aprender más aquí.
Con todo, la serie de actualizaciones de OpenAI muestra su capacidad para continuar innovando en el campo de la inteligencia artificial. En particular, la aplicación del modelo GPT-4o mejorará significativamente la experiencia del usuario y el lanzamiento de SearchGPT presagia una nueva dirección. futuro desarrollo de motores de búsqueda. Esperamos más innovaciones tecnológicas sorprendentes que traerá OpenAI en el futuro.