No solo es el tan esperado modelo de próxima generación de OpenAI, Orion, sino que también Anthropic, otra startup estrella de inteligencia artificial (IA) que es rival de Google y OpenAI, también ha informado que el desarrollo de modelos avanzados de IA ha encontrado cuellos de botella.
El miércoles 13 de noviembre, hora del este, Bloomberg informó que OpenAI completó la primera ronda de entrenamiento de Orion en septiembre de este año, con la esperanza de superar en gran medida algunas versiones anteriores y acercarse al objetivo de que la IA supere a los humanos, citando a dos personas familiarizadas con el asunto. , pero Orion no funcionó tan bien como esperaba la compañía. A fines del verano, el modelo estaba funcionando mal al intentar responder preguntas de codificación no capacitadas.
Personas familiarizadas con el asunto comentaron que, en general, hasta ahora, en comparación con el rendimiento de GPT-4 más allá de GPT-3.5, los modelos existentes de Orion y OpenAI no han avanzado mucho.
El informe también citó a otras tres personas familiarizadas con el asunto diciendo que la próxima nueva versión de Gemini de Google no cumplió con las expectativas internas, y Anthropic también pospuso el lanzamiento planificado del modelo Claude conocido como 3.5 Opus.
El informe cree que las tres empresas mencionadas se enfrentan a múltiples desafíos en el desarrollo de modelos de IA. Les resulta cada vez más difícil encontrar datos de entrenamiento artificial de alta calidad sin explotar. Por ejemplo, el rendimiento de codificación insatisfactorio de Orion se debe en parte a la falta de datos de codificación suficientes para el entrenamiento. Incluso mejoras modestas en el rendimiento del modelo pueden no ser suficientes para justificar los enormes costos de construir y operar un nuevo modelo, o para cumplir con las expectativas de una actualización importante.
El problema del cuello de botella en el desarrollo de modelos de IA desafía la ley de escala que muchas empresas emergentes e incluso gigantes tecnológicos consideran una directriz. También pone en duda la viabilidad de una inversión masiva en IA para lograr una inteligencia artificial general (AGI).
Wall Street News mencionó una vez que la ley propuesta por OpenAI ya en 2020 significa que el rendimiento final de un modelo grande está relacionado principalmente con la cantidad de cálculo, la cantidad de parámetros del modelo y la cantidad de datos de entrenamiento, y está relacionado con la estructura específica (capa) del modelo número/profundidad/ancho) son básicamente irrelevantes. En julio de este año, el director de tecnología (CTO) de Microsoft, Kevin Scott, también defendió esta ley, diciendo que la ley de escalamiento todavía se aplica a la industria actual: aunque se expanden los modelos grandes, los beneficios marginales no disminuyen. Casualmente, los medios dieron la noticia la semana pasada de que OpenAI descubrió que Orion "no dio un gran salto" y que el progreso fue mucho menor que el de las dos generaciones anteriores de modelos insignia. Este descubrimiento desafía directamente la ley de escala que se ha aplicado en el campo de la IA. Debido a la disminución de los datos de entrenamiento de alta calidad y al aumento de los costos computacionales, los investigadores de OpenAI tuvieron que comenzar a explorar si había otras formas de mejorar el rendimiento del modelo.OpenAI, por ejemplo, está incorporando más capacidades de escritura de códigos en sus modelos y está tratando de desarrollar software que pueda hacerse cargo de una PC para completar actividades de navegador web o tareas de aplicaciones realizando clics, movimientos del cursor y otras acciones.
OpenAI también ha establecido un equipo dedicado, dirigido por Nick Ryder, quien anteriormente era responsable de la capacitación previa, para explorar cómo optimizar los datos de capacitación limitados y ajustar la aplicación de métodos de expansión para mantener la estabilidad de la mejora del modelo.
Con respecto al informe de Bloomberg del miércoles, un portavoz de Google DeepMind dijo que la compañía está "satisfecha con el progreso de Gemini y compartiremos más información cuando esté listo". OpenAI declinó hacer comentarios. Anthropic tampoco quiso hacer comentarios, pero se refirió a una publicación de blog publicada el lunes, en la que el director ejecutivo de Anthropic, Dario Amodei, habló durante un podcast de cinco horas.
Un modelo dijo que lo que la gente llama ley de escala no es una ley. Es un nombre inapropiado. No es una ley universal, sino una ley empírica. Amodel espera que sigan existiendo leyes de escala, pero no está seguro. Dijo que hay "muchas cosas" que podrían "interrumpir" el progreso hacia una IA más poderosa en los próximos años, incluido "podríamos quedarnos sin datos", pero es optimista en que las empresas de IA encontrarán una manera de superar cualquier obstáculo.
Respecto al informe de Bloomberg, Nosson Weissman, fundador de NossonAI, una empresa que ofrece soluciones de IA personalizadas para empresas, comentó que el informe no lo confundió porque, en primer lugar, no vio la expresión de verdaderos expertos que hayan hecho contribuciones significativas. en el campo de la IA, en segundo lugar, a menudo vemos avances significativos en el modelado y, finalmente, cree que a los medios de comunicación les gusta crear drama, y este informe parece tener un hermoso titular dramático.