Se lanza oficialmente la versión 2.0 de Google Gemini: 2.0 Flash ahora admite salida multimodal

Autor：Eve Cole Fecha de actualización：2024-12-20 16:00:02

Google ha lanzado su modelo de inteligencia artificial de última generación Gemini 2.0, lo que supone un gran avance para Google en el campo de los asistentes generales de inteligencia artificial. Gemini 2.0 ofrece mejoras significativas en el procesamiento multimodal y el uso de herramientas, lo que permite una comprensión más profunda del mundo y la ejecución de comandos del usuario. Este modelo está desarrollado en base a las versiones Gemini 1.0 y 1.5 y se ha aplicado en múltiples productos de Google, sirviendo a millones de usuarios en todo el mundo. Este artículo presentará en detalle las funciones de Gemini 2.0 y su impacto en los productos de Google y el ecosistema de desarrolladores.

Sundar Pichai, director ejecutivo de Google y su empresa matriz Alphabet, anunció que la compañía lanzó su último modelo de inteligencia artificial, Gemini 2.0, que marca un paso importante para Google en la construcción de un asistente universal de inteligencia artificial. Gemini 2.0 demuestra avances significativos en el procesamiento de entradas multimodal y el uso de herramientas nativas, lo que permite a los agentes de IA obtener una comprensión más profunda del mundo que los rodea y tomar acciones en nombre del usuario bajo su supervisión.

Gemini2.0 se desarrolló sobre la base de sus predecesores Gemini1.0 y 1.5, que por primera vez lograron capacidades de procesamiento multimodal nativas y pueden comprender una variedad de tipos de información, incluidos texto, video, imágenes, audio y código. Actualmente, millones de desarrolladores utilizan Gemini para desarrollar, lo que lleva a Google a reinventar sus productos, incluidos 7 productos que atienden a 2 mil millones de usuarios, y a crear nuevos productos. NotebookLM es un ejemplo de capacidades multimodales y de contexto largo y es muy apreciado.

微信截图_20241212080452.png

El lanzamiento de Gemini 2.0 presagia la entrada de Google en una nueva era de agentes. Este modelo tiene capacidades nativas de salida de imagen y audio, así como capacidades nativas de uso de herramientas. Google ha comenzado a poner Gemini 2.0 a disposición de desarrolladores y evaluadores confiables, y planea integrarlo rápidamente en productos, comenzando con Gemini y la búsqueda. A partir de ahora, el modelo experimental Gemini2.0 Flash estará abierto a todos los usuarios de Gemini. Al mismo tiempo, Google también lanzó una nueva función llamada Investigación profunda, que utiliza razonamiento avanzado y capacidades de contexto extenso para actuar como asistente de investigación para explorar temas complejos y compilar informes en nombre de los usuarios. Esta función está actualmente disponible en Gemini Advanced.

La búsqueda es uno de los productos más afectados por la IA, y la visión general de la IA de Google ahora llega a mil millones de personas, lo que les permite hacer preguntas completamente nuevas, convirtiéndose rápidamente en una de las funciones de búsqueda más populares de Google. Como siguiente paso, Google incorporará las capacidades de razonamiento avanzado de Gemini 2.0 a AI Overview para resolver temas más complejos y problemas de varios pasos, incluidas ecuaciones matemáticas avanzadas, consultas multimodales y codificación. Esta semana comenzaron las pruebas limitadas, y se planea un lanzamiento más amplio a principios del próximo año. Google también seguirá llevando AI Overview a más países e idiomas durante el próximo año.

Google también demostró sus resultados de vanguardia en la investigación de agentes a través de las capacidades multimodales nativas de Gemini 2.0. Gemini 2.0 Flash mejora el 1.5 Flash, el modelo más popular entre los desarrolladores hasta la fecha, con tiempos de respuesta igualmente rápidos. En particular, el 2.0 Flash incluso superó al 1.5 Pro en puntos de referencia clave al ser dos veces más rápido. Flash 2.0 también trae nuevas capacidades. Además de admitir entradas multimodales, como imágenes, vídeo y audio, Flash 2.0 ahora también admite salidas multimodales, como imágenes generadas de forma nativa mezcladas con texto y audio de texto a voz (TTS) en varios idiomas controlable. También puede llamar de forma nativa a herramientas como la búsqueda de Google, la ejecución de código y funciones de terceros definidas por el usuario.

微信截图_20241212080808.png

Gemini 2.0 Flash ahora está disponible para los desarrolladores como un modelo experimental, con entrada multimodal y salida de texto disponible para todos los desarrolladores a través de Google AI Studio y la API Gemini de Vertex AI, mientras que la conversión de texto a voz y la generación de imágenes nativas están disponibles para los socios de acceso temprano. La disponibilidad general seguirá en enero, junto con tamaños de modelos adicionales.

Para ayudar a los desarrolladores a crear aplicaciones dinámicas e interactivas, Google también lanzó una nueva API multimodal en tiempo real con capacidades de entrada de transmisión de audio y video en tiempo real y la capacidad de utilizar múltiples herramientas combinadas.

A partir de hoy, los usuarios de Gemini de todo el mundo pueden acceder a una versión optimizada para chat del experimento Flash 2.0 seleccionándolo en el menú desplegable del modelo en la web de escritorio y móvil, y pronto estará disponible en la aplicación móvil de Gemini. A principios del próximo año, Google expandirá Gemini 2.0 a más productos de Google.

Con todo, el lanzamiento de Gemini 2.0 representa otro paso dado por Google en el campo de la IA. Sus potentes capacidades multimodales y su integración de herramientas brindarán una experiencia más rica a los desarrolladores y usuarios y promoverán la aplicación de la tecnología de IA en más campos. .desarrollo y aplicación. En el futuro, Gemini 2.0 se integrará aún más en el ecosistema de productos de Google para brindar servicios más inteligentes y convenientes a los usuarios.