Ai2, una organización de investigación de inteligencia artificial sin fines de lucro, ha lanzado su nuevo modelo de lenguaje abierto serie OLMo2. Este es el producto de segunda generación de la serie OLMo. Sus características de código fuente completamente abierto representan el último progreso en el campo de la IA de código abierto. OLMo2 se adhiere estrictamente a la definición de la Iniciativa de código abierto y todos los datos, herramientas y códigos de capacitación están disponibles públicamente, lo que contrasta marcadamente con otros modelos de lenguaje que afirman ser "abiertos" pero no son completamente de código abierto. La medida de Ai2 tiene como objetivo promover la innovación y el desarrollo de la comunidad de código abierto y proporcionar a los desarrolladores globales un potente soporte técnico y una plataforma para compartir recursos.
A diferencia de otros modelos de lenguaje "abierto" actualmente en el mercado como la serie Llama de Meta, OLMo2 cumple con la estricta definición de la Open Source Initiative, lo que significa que los datos de entrenamiento, las herramientas y el código utilizados para su desarrollo son públicos y accesibles para cualquier persona. usar. Según lo definido por la Open Source Initiative, OLMo2 cumple con los requisitos de la organización para un estándar de "IA de código abierto", que se finalizó en octubre de este año.
Ai2 mencionó en su blog que durante el proceso de desarrollo de OLMo2, todos los datos de capacitación, códigos, planes de capacitación, métodos de evaluación y puntos de control intermedios estuvieron completamente abiertos, con el objetivo de promover la innovación y el descubrimiento en la comunidad de código abierto a través de recursos compartidos. "Al compartir abiertamente nuestros datos, soluciones y hallazgos, esperamos brindar a la comunidad de código abierto los recursos para descubrir nuevos métodos y tecnologías innovadoras", dijo Ai2.
La serie OLMo2 incluye dos versiones: una es OLMo7B con 7 mil millones de parámetros y la otra es OLMo13B con 13 mil millones de parámetros. La cantidad de parámetros afecta directamente el rendimiento del modelo y las versiones con más parámetros generalmente pueden manejar tareas más complejas. OLMo2 tuvo un buen desempeño en tareas de texto comunes, pudiendo completar tareas como responder preguntas, resumir documentos y escribir código.
Para entrenar OLMo2, Ai2 utilizó un conjunto de datos que contenía cinco billones de tokens. Token es la unidad más pequeña en el modelo de lenguaje. 1 millón de tokens equivalen aproximadamente a 750.000 palabras. Los datos de capacitación incluyen contenido de sitios web de alta calidad, artículos académicos, foros de discusión de preguntas y respuestas y libros de ejercicios de matemáticas sintéticas, y se seleccionan cuidadosamente para garantizar la eficiencia y precisión del modelo.
Ai2 confía en el rendimiento de OLMo2 y afirma que ha competido con modelos de código abierto como Meta's Llama3.1 en rendimiento. Ai2 señaló que el rendimiento de OLMo27B incluso superó a Llama3.18B y se convirtió en uno de los modelos de lenguaje totalmente abierto más sólidos en la actualidad. Todos los modelos OLMo2 y sus componentes se pueden descargar de forma gratuita a través del sitio web oficial de Ai2 y siguen la licencia Apache2.0, lo que significa que estos modelos se pueden utilizar no solo para investigación sino también para aplicaciones comerciales.
Las características de código abierto de OLMo2 y su excelente rendimiento han brindado nuevas posibilidades al desarrollo del campo de la inteligencia artificial e inyectado nueva vitalidad a la comunidad de código abierto. Vale la pena esperar su desarrollo y aplicaciones futuras.