El último modelo de OpenAI, o3, logró resultados impresionantes en el punto de referencia ARC-AGI, con una puntuación de hasta el 75,7 % en condiciones informáticas estándar y el 87,5 % en la versión de alta informática. Este resultado supera con creces todos los modelos anteriores y ha atraído una amplia atención en el campo de la investigación de la IA. El punto de referencia ARC-AGI está diseñado para evaluar la capacidad de los sistemas de IA para adaptarse a nuevas tareas y demostrar una inteligencia fluida. Es extremadamente difícil y se considera uno de los estándares más desafiantes en la evaluación de la IA. El rendimiento revolucionario de o3 sin duda trae nuevas direcciones y posibilidades para el desarrollo de la IA, pero eso no significa que AGI se haya descifrado.
El último modelo o3 lanzado por OpenAI logró resultados sorprendentes en el punto de referencia ARC-AGI, con una puntuación de hasta el 75,7% en condiciones informáticas estándar, y la versión de alta informática alcanzó el 87,5%. Este logro sorprendió a la comunidad de investigación de IA, pero aún no prueba que se haya descifrado la generalidad de la inteligencia artificial (AGI).
El punto de referencia ARC-AGI se basa en Abstract Reasoning Corpus, una prueba diseñada para evaluar la capacidad de un sistema de IA para adaptarse a nuevas tareas y demostrar inteligencia fluida. ARC consta de una serie de acertijos visuales que requieren la comprensión de conceptos básicos como objetos, límites y relaciones espaciales. Los humanos pueden resolver fácilmente estos acertijos, pero los sistemas de inteligencia artificial actuales enfrentan grandes desafíos en este sentido. ARC se considera uno de los criterios más desafiantes en la evaluación de la IA.
El o3 funciona significativamente mejor que los modelos anteriores. La puntuación más alta de o1-preview y o1 model en ARC-AGI es del 32%. Antes de esto, el investigador Jeremy Berman utilizó un método híbrido para combinar Claude3.5Sonnet con un algoritmo genético, logrando una puntuación del 53%, y la aparición de o3 se consideró como un salto en las capacidades de la IA.
François Chollet, fundador de ARC, elogió a o3 por su cambio cualitativo en las capacidades de IA y consideró que ha alcanzado un nivel sin precedentes en su capacidad para adaptarse a nuevas tareas.
Aunque o3 funciona bien, su coste computacional también es bastante alto. En una configuración informática baja, resolver cada rompecabezas cuesta entre 17 y 20 dólares, consumiendo 33 millones de tokens; en una configuración informática alta, el coste computacional aumenta a 172 veces, utilizando miles de millones de tokens. Sin embargo, a medida que el costo de la inferencia disminuye gradualmente, estos gastos generales pueden volverse más razonables.
Actualmente no hay detalles sobre cómo o3 logró este avance. Algunos científicos especulan que o3 puede utilizar un método de síntesis de programas que combina pensamiento en cadena y mecanismos de búsqueda. Otros científicos creen que o3 puede provenir simplemente de ampliar aún más el aprendizaje por refuerzo.
Aunque o3 ha logrado avances significativos en ARC-AGI, Chollet enfatizó que ARC-AGI no es una prueba de AGI y o3 aún no ha alcanzado los estándares AGI. Todavía se desempeña mal en algunas tareas simples, lo que muestra diferencias fundamentales con la inteligencia humana. Además, o3 todavía depende de la verificación externa durante el proceso de razonamiento, lo que está lejos de la capacidad de aprendizaje independiente de AGI.
El equipo de Chollet está desarrollando nuevos puntos de referencia desafiantes para probar las capacidades de o3 y espera reducir su puntuación por debajo del 30%. Señala que una verdadera AGI significará que será casi imposible crear tareas que sean simples para los humanos pero difíciles para la IA.
Destacar:
o3 logró una puntuación alta del 75,7% en la prueba comparativa ARC-AGI, superando a los modelos anteriores.
El costo de resolver cada acertijo en o3 alcanza entre 17 y 20 dólares estadounidenses, lo que supone una enorme cantidad de cálculo.
Aunque o3 tiene un buen desempeño, los expertos enfatizan que aún no ha alcanzado los estándares AGI.
Con todo, el excelente desempeño del modelo o3 en la prueba ARC-AGI demuestra el progreso significativo de la inteligencia artificial en las capacidades de razonamiento abstracto, pero esto es solo un pequeño paso en el camino hacia una verdadera AGI. La investigación futura aún debe continuar explorando para resolver el alto costo computacional y los problemas centrales de AGI.