¡La versión experimental Gemini de Google DeepMind (Exp1114) funciona increíblemente en la plataforma Chatbot Arena! Después de las pruebas comunitarias con más de 6000 votos, superó a sus competidores en varias áreas clave, especialmente matemáticas, pautas complejas y escritura creativa, demostrando sólidas capacidades generales. El editor de Downcodes le brindará una comprensión profunda del excelente rendimiento de Gemini-Exp-1114 y la interpretación que la industria hace del mismo.
La última versión experimental Gemini de Google DeepMind (Exp1114) ha logrado resultados impresionantes en la plataforma Chatbot Arena. Después de más de una semana de pruebas comunitarias, los datos acumulados de más de 6000 votos muestran que este nuevo modelo supera a los productos de la competencia con ventajas significativas y muestra una fuerza asombrosa en muchas áreas clave.
En términos de puntuación general, Gemini-Exp-1114 empató en el primer lugar con GPT-4-último con una puntuación excelente de más de 40 puntos, superando a la versión preliminar de GPT-4 líder anteriormente. Lo que es aún más sorprendente es que este modelo ha alcanzado la cima en áreas básicas como matemáticas, indicaciones complejas y escritura creativa, lo que demuestra su gran fortaleza integral.
En concreto, el progreso de Gemini-Exp-1114 es impresionante:
Saltó del 3° al 1° lugar en la clasificación general
La evaluación de la capacidad matemática subió del 3º al 1º
El procesamiento rápido complejo subió del 4º al 1º
El rendimiento en escritura creativa mejoró del 2º al 1º
Las capacidades de procesamiento visual también encabezan la lista
El nivel de programación también mejoró del 5º al 3º.
Google AI Studio ha lanzado oficialmente esta nueva versión para que la experimenten los usuarios. Sin embargo, la comunidad también ha expresado su preocupación por algunas cuestiones específicas, como si el límite de 1000 tokens todavía existe y cómo manejar cuestiones prácticas de aplicación, como la producción de texto extremadamente largo.
Los analistas de la industria creen que este avance muestra que la inversión a largo plazo de Google en el campo de la IA está empezando a dar frutos. Curiosamente, el modelo mantiene una clasificación del cuarto lugar en control de estilo, lo que puede implicar que el equipo de desarrollo adoptó principalmente nuevos métodos posteriores al entrenamiento en lugar de realizar cambios en el modelo previamente entrenado.
Este importante avance también desencadenó debates sobre la estructura de la industria. OpenAI a menudo lanza nuevos productos cuando los competidores lanzan actualizaciones importantes, pero esta vez el progreso de Google ha sido tan grande que ha atraído la atención de la industria. Algunos creen que esto puede presagiar la llegada de Gemini2 y que la competitividad de Google en el campo de los modelos grandes está mejorando significativamente.
El excelente rendimiento de Gemini-Exp-1114 marca otro hito para Google en el campo de los grandes modelos de IA y también ofrece más posibilidades para el desarrollo futuro de la IA. ¡Esperamos más sorpresas en versiones posteriores de Gemini!