Recientemente, los investigadores de la Universidad de Stanford y la Universidad de Washington capacitaron con éxito un modelo de inferencia de IA llamado S1, que cuesta solo $ 50. El rendimiento del modelo en las pruebas de capacidad matemática y de programación es comparable al modelo O1 de OpenAI y el modelo R1 de Deepseek. Este resultado ha provocado un nuevo pensamiento sobre la comercialización de los modelos de IA y también ha causado preocupaciones entre los grandes laboratorios de IA.
El equipo de investigación extrajo las capacidades de inferencia requeridas del modelo básico preparado a través de la tecnología de destilación y capacitado utilizando el modelo experimental Gemini2.0 Flash Thinking de Google. Este proceso no solo es barato, sino también capacitación rápida.
Sin embargo, los grandes laboratorios de IA no están satisfechos con el fenómeno de los modelos de replicación de bajo costo. Meta, Google y Microsoft planean invertir cientos de miles de millones de dólares en los próximos dos años para capacitar a los modelos de IA de próxima generación para consolidar su posición en el mercado.
Los resultados de la investigación de S1 muestran la posibilidad de lograr un rendimiento de inferencia fuerte a través de conjuntos de datos relativamente pequeños y métodos supervisados de ajuste fino, que también proporcionan nuevas direcciones para futuras investigaciones de IA.
Documento: https://arxiv.org/pdf/2501.19393
Código: https://github.com/simpleScaling/s1
Puntos clave:
El costo de capacitación del modelo S1 es inferior a US $ 50, y su rendimiento es comparable al de los modelos de inferencia principales.
A través de la tecnología de destilación, el equipo de investigación extrae capacidades de razonamiento de modelos preparados, y el proceso de capacitación es rápido y eficiente.
Los grandes laboratorios de IA han expresado su preocupación por la situación de los modelos de replicación de bajo costo, y las inversiones se centrarán en la infraestructura de IA en el futuro.