El editor de Downcodes se enteró de que Cohere lanzó recientemente dos potentes modelos de inteligencia artificial de código abierto: Aya Expanse 8B y 35B, que se lanzaron oficialmente en la plataforma Hugging Face. Estos dos modelos tienen como objetivo cerrar la brecha de rendimiento entre los modelos básicos en diferentes idiomas, mejorar significativamente las capacidades de IA en 23 idiomas y proporcionar a los investigadores de IA globales herramientas más convenientes y capacidades multilingües más potentes. El proyecto Aya se compromete a ampliar el acceso a modelos básicos en idiomas distintos del inglés. Su método de arbitraje de datos y su estrategia de capacitación de "preferencia global" evitan efectivamente la generación de contenido de baja calidad y mejoran el rendimiento general y la seguridad del modelo. A continuación, profundicemos en los detalles de ambos modelos.
Recientemente, Cohere anunció el lanzamiento de dos nuevos modelos de IA de código abierto, con el objetivo de reducir la brecha lingüística de los modelos básicos a través de su proyecto Aya. Los dos nuevos modelos, llamados Aya Expanse8B y 35B, ya están disponibles en Hugging Face. El lanzamiento de estos dos modelos ha mejorado significativamente el rendimiento de la IA en 23 idiomas.
Cohere dijo en su blog que el modelo de parámetros 8B facilita que los investigadores de todo el mundo logren avances, mientras que el modelo de parámetros 32B proporciona capacidades multilingües líderes en la industria.
El objetivo del proyecto Aya es ampliar el acceso al modelo base a más idiomas además del inglés. Antes de esto, el departamento de investigación de Cohere lanzó el proyecto Aya el año pasado y lanzó el modelo de lenguaje grande (LLM) Aya101 en febrero, que cubre 101 idiomas. Además, Cohere también lanzó el conjunto de datos Aya para ayudar a la formación de modelos en otros idiomas.
El modelo Aya Expanse sigue muchos de los métodos centrales de Aya101 en su proceso de construcción. Cohere dijo que las mejoras en Aya Expanse son el resultado de años de repensar los componentes básicos de los avances en el aprendizaje automático. Su dirección de investigación se centra principalmente en reducir la brecha lingüística y ha logrado algunos avances clave, como el arbitraje de datos, la capacitación de preferencias para el rendimiento y la seguridad generales y la fusión de modelos.
En múltiples pruebas de referencia, Cohere dijo que los dos modelos de Aya Expanse superaron a los modelos de IA de tamaño similar de compañías como Google, Mistral y Meta.
Entre ellos, Aya Expanse32B superó a Gemma227B, Mistral8x22B e incluso al Llama3.170B más grande en pruebas comparativas en varios idiomas. El pequeño modelo 8B también superó a Gemma29B, Llama3.18B y Ministral8B, con tasas de ganancia que oscilaron entre el 60,4% y el 70,6%.
Para evitar generar contenido difícil de entender, Cohere utiliza un método de muestreo de datos llamado arbitraje de datos. Este enfoque permite una mejor formación de modelos, especialmente para lenguajes de bajos recursos. Además, Cohere se centra en guiar los modelos hacia “preferencias globales” y tener en cuenta las perspectivas de diferentes culturas e idiomas para mejorar el rendimiento y la seguridad del modelo.
El programa Aya de Cohere busca garantizar que los LLM puedan desempeñarse mejor en investigaciones en idiomas distintos del inglés. Aunque muchos LLM eventualmente se publicarán en otros idiomas, a menudo enfrentan el problema de datos insuficientes al entrenar modelos, especialmente para idiomas de bajos recursos. Por lo tanto, los esfuerzos de Cohere son particularmente importantes para ayudar a construir modelos de IA multilingües.
Blog oficial: https://cohere.com/blog/aya-expanse-connecting-our-world
Destacar:
? **Cohere lanza dos nuevos modelos de IA**, comprometidos a reducir la brecha lingüística de los modelos básicos y respaldar mejoras de rendimiento en 23 idiomas.
**El modelo Aya Expanse funciona bien**, superando a muchos de sus competidores en puntos de referencia multilingües.
El **método de arbitraje de datos** ayuda al modelo a evitar la generación de contenido de baja calidad, prestar atención a las perspectivas culturales y lingüísticas globales y mejorar el efecto de entrenamiento de la IA multilingüe.
Con todo, el modelo Aya Expanse lanzado por Cohere ha logrado avances significativos en el campo de la IA multilingüe, y su naturaleza de código abierto también proporciona recursos valiosos para la investigación y el desarrollo de la comunidad global de IA. El editor de Downcodes cree que esto promoverá aún más el progreso de la tecnología de inteligencia artificial multilingüe y promoverá el intercambio y el intercambio de información global.