En los últimos años, la mejora del rendimiento de los modelos de idiomas grandes (LLM) se ha basado principalmente en la expansión de la escala, es decir, aumentar el volumen de datos y la potencia informática. Sin embargo, este modelo está llegando gradualmente a un cuello de botella. Los expertos de la industria señalaron que es difícil hacer un progreso significativo simplemente confiando en la estrategia "más grande y mejor", y los nuevos avances tecnológicos son inminentes. Este artículo explorará los desafíos que enfrenta el campo AI actual y cómo las tecnologías emergentes de "computación de tiempo de prueba" pueden traer nuevas direcciones al desarrollo de la IA.
Con el rápido desarrollo de la IA generativa, la percepción tradicional de la industria de "más grande es mejor" está cambiando. Muchos científicos de IA principales dijeron recientemente que el método para mejorar el rendimiento de la IA simplemente aumentando la cantidad de datos y la potencia informática se está acercando a un cuello de botella, y están surgiendo nuevos avances tecnológicos.
Ilya Sutskever, cofundadora de Safe Superintelligence y OpenAI, recientemente expresó su opinión de que los métodos tradicionales de pre-entrenamiento han entrado en el período de la plataforma de rendimiento. Esta afirmación es particularmente llamativa porque fue el método de pre-entrenamiento a gran escala que abogó en los primeros días que dio a luz a ChatGPT. Hoy, dijo que el campo de la IA se ha movido de la "era de la expansión de la escala" a la "era de la era de los milagros y el descubrimiento".
Actualmente, la capacitación modelo a gran escala enfrenta múltiples desafíos: los costos de capacitación de decenas de millones de dólares, el riesgo de falla del hardware causado por la complejidad del sistema, los largos ciclos de prueba y las limitaciones en los recursos de datos y el suministro de energía. Estas preguntas llevaron a los investigadores a explorar nuevas rutas tecnológicas.
Entre ellos, la tecnología de "tiempo de cálculo de prueba" ha atraído una atención generalizada. Este enfoque permite que los modelos de IA generen y evalúen múltiples soluciones en tiempo real durante el uso en lugar de dar una sola respuesta directamente. El investigador de Operai Noam Brown hizo una analogía de la imagen: dejar que AI piense durante 20 segundos en una tarjeta de juego, que es comparable a expandir la escala del modelo y el tiempo de entrenamiento en 100,000 veces.
Actualmente, varios laboratorios de IA principales, incluidos OpenAI, Anthrope, XAI y DeepMind, están desarrollando activamente sus respectivas versiones de tecnología. Operai ha aplicado esta tecnología en su último modelo "O1", y el director de productos Kevin Weil dijo que a través de estos enfoques innovadores, han visto una gran cantidad de oportunidades para mejorar el rendimiento del modelo.
Los expertos de la industria creen que esta transformación de las rutas tecnológicas puede remodelar el panorama competitivo de toda la industria de la IA y cambiar fundamentalmente la estructura de demanda de las compañías de IA para diversos recursos. Esto marca que el desarrollo de IA está entrando en una nueva etapa en la que se centra más en la mejora de la calidad en lugar de la simple expansión de escala.
En resumen, el aumento de nuevas tecnologías, como la "computación en el tiempo de prueba", marca una nueva etapa en el desarrollo de la IA, es decir, prestar más atención a la mejora del rendimiento del modelo en lugar de simplemente escalar la expansión. Esto cambiará el panorama competitivo de la industria de la IA y promoverá la tecnología de IA para desarrollarse en una dirección más refinada e inteligente. En el futuro, los avances en la tecnología AI dependerán más de la innovación de algoritmos y la comprensión de la esencia del modelo, en lugar de la acumulación de potencia informática simple.