El campo de la IA de código abierto ha experimentado un auge en los últimos años, pero todavía existe una brecha en comparación con las grandes empresas de tecnología. La potencia informática es sólo un aspecto, y el aspecto más crítico es la falta de soluciones posteriores a la capacitación. El último avance de AI2 (anteriormente Allen Artificial Intelligence Institute), el programa de posentrenamiento Tülu3, proporciona un arma poderosa para cerrar esta brecha. El editor de Downcodes le brindará una comprensión profunda de cómo esta tecnología potencia la IA de código abierto y hace que los modelos de lenguaje grandes que originalmente eran difíciles de controlar sean fáciles de usar y personalizar.
En el campo de la IA de código abierto, la brecha con las grandes empresas tecnológicas no sólo se refleja en la potencia informática. AI2 (anteriormente Allen Artificial Intelligence Institute) está cerrando esta brecha a través de una serie de iniciativas innovadoras. Su programa de posentrenamiento Tülu3 recientemente lanzado hace que sea posible convertir modelos de lenguaje grandes originales en sistemas prácticos de IA.
A diferencia de la cognición común, los modelos lingüísticos básicos no se pueden utilizar directamente después del entrenamiento previo. De hecho, el proceso posterior al entrenamiento es el vínculo clave que determina el valor final del modelo. Es en esta etapa que el modelo pasa de ser una red omnisciente y carente de juicio a una herramienta práctica con una orientación funcional específica.
Durante mucho tiempo, las grandes empresas han mantenido en secreto los programas posteriores a la formación. Si bien cualquiera puede construir un modelo utilizando la última tecnología, se requieren técnicas post-entrenamiento únicas para que un modelo sea útil en campos específicos, como el asesoramiento psicológico o el análisis de investigaciones. Incluso para proyectos como Meta's Llama, que se anuncia como de código abierto, la fuente de su modelo original y los métodos de entrenamiento comunes siguen siendo estrictamente confidenciales.
La aparición de Tülu3 cambia esta situación. Este conjunto completo de soluciones posteriores a la capacitación cubre una gama completa de procesos, desde la selección de temas hasta la gestión de datos, desde el aprendizaje por refuerzo hasta el ajuste. Los usuarios pueden ajustar las capacidades del modelo según sus necesidades, como fortalecer las capacidades matemáticas y de programación, o reducir la prioridad del procesamiento en varios idiomas.
La prueba de AI2 muestra que el rendimiento del modelo entrenado por Tülu3 ha alcanzado el nivel de los mejores modelos de código abierto. Este avance es significativo: proporciona a las empresas una opción totalmente autónoma y controlable. Especialmente para las instituciones que manejan datos confidenciales, como la investigación médica, ya no necesitan depender de API de terceros o servicios personalizados. Pueden completar todo el proceso de capacitación localmente, ahorrando costos y protegiendo la privacidad.
AI2 no sólo lanzó esta solución, sino que también tomó la iniciativa en aplicarla a sus propios productos. Aunque los resultados de las pruebas actuales se basan en el modelo Llama, tienen planes de lanzar un nuevo modelo basado en su propio OLMo y entrenado por Tülu3, que será una solución verdaderamente de código abierto de principio a fin.
Esta tecnología de código abierto no sólo demuestra la determinación de AI2 de promover la democratización de la IA, sino que también inyecta un impulso a toda la comunidad de IA de código abierto. Nos acerca un paso más a un ecosistema de IA verdaderamente abierto y transparente.
El código abierto de Tülu3 marca un gran paso adelante en el campo de la IA de código abierto. Reduce el umbral para las aplicaciones de IA, promueve la equidad y el intercambio de tecnología de IA y brinda posibilidades ilimitadas para el desarrollo futuro de la IA. Esperamos que surjan más proyectos similares de código abierto para construir conjuntamente un ecosistema de IA más próspero.