O editor do Downcodes aprendeu que Cohere lançou recentemente dois poderosos modelos de IA de código aberto - Aya Expanse 8B e 35B, que são lançados oficialmente na plataforma Hugging Face. Esses dois modelos visam preencher a lacuna de desempenho entre os modelos básicos em diferentes idiomas, melhorar significativamente as capacidades de IA em 23 idiomas e fornecer aos pesquisadores globais de IA ferramentas mais convenientes e recursos multilíngues mais poderosos. O projeto Aya está empenhado em expandir o acesso a modelos básicos em idiomas diferentes do inglês. Seu método de arbitragem de dados e estratégia de treinamento de "preferência global" evitam efetivamente a geração de conteúdo de baixa qualidade e melhoram o desempenho geral e a segurança do modelo. A seguir, vamos mergulhar nas especificidades de ambos os modelos.
Recentemente, a Cohere anunciou o lançamento de dois novos modelos de IA de código aberto, com o objetivo de reduzir a lacuna linguística dos modelos básicos através do seu projeto Aya. Os dois novos modelos, chamados Aya Expanse8B e 35B, já estão disponíveis no Hugging Face. O lançamento destes dois modelos melhorou significativamente o desempenho da IA em 23 idiomas.
Cohere disse em seu blog que o modelo de parâmetros 8B torna mais fácil para pesquisadores de todo o mundo alcançar avanços, enquanto o modelo de parâmetros 32B fornece recursos multilíngues líderes do setor.
O objetivo do projeto Aya é expandir o acesso ao modelo base para mais idiomas além do inglês. Antes disso, o departamento de pesquisa de Cohere lançou o projeto Aya no ano passado e lançou o Aya101 Large Language Model (LLM) em fevereiro, que abrange 101 idiomas. Além disso, Cohere também lançou o conjunto de dados Aya para auxiliar no treinamento de modelos em outros idiomas.
O modelo Aya Expanse segue muitos dos métodos principais do Aya101 em seu processo de construção. Cohere disse que as melhorias no Aya Expanse são o resultado de anos repensando os principais blocos de construção dos avanços no aprendizado de máquina. A direção de sua pesquisa concentra-se principalmente na redução da lacuna linguística e alcançou alguns avanços importantes, como arbitragem de dados, treinamento preferencial para desempenho e segurança geral e fusão de modelos.
Em vários testes de benchmark, Cohere disse que os dois modelos da Aya Expanse superaram modelos de IA de tamanhos semelhantes de empresas como Google, Mistral e Meta.
Entre eles, Aya Expanse32B superou Gemma227B, Mistral8x22B e até mesmo o maior Llama3.170B em testes de benchmark multilíngues. O pequeno modelo 8B também superou Gemma29B, Llama3.18B e Ministral8B, com taxas de vitória variando de 60,4% a 70,6%.
Para evitar a geração de conteúdo difícil de entender, Cohere usa um método de amostragem de dados chamado arbitragem de dados. Esta abordagem permite um melhor treinamento de modelos, especialmente para linguagens de poucos recursos. Além disso, Cohere está focado em orientar modelos em direção a “preferências globais” e levar em consideração as perspectivas de diferentes culturas e idiomas para melhorar o desempenho e a segurança do modelo.
O programa Aya da Cohere busca garantir que os LLMs possam ter um melhor desempenho em pesquisas em idiomas diferentes do inglês. Embora muitos LLMs acabem sendo lançados em outras línguas, eles muitas vezes enfrentam o problema de dados insuficientes ao treinar modelos, especialmente para linguagens de poucos recursos. Portanto, os esforços da Cohere são particularmente importantes para ajudar a construir modelos multilíngues de IA.
Blog oficial: https://cohere.com/blog/aya-expanse-connecting-our-world
Destaque:
? **Cohere lança dois novos modelos de IA**, comprometidos em reduzir a lacuna linguística dos modelos básicos e apoiar melhorias de desempenho em 23 idiomas.
**O modelo Aya Expanse tem um bom desempenho**, superando muitos de seus concorrentes em benchmarks multilíngues.
**O método de arbitragem de dados** ajuda o modelo a evitar a geração de conteúdo de baixa qualidade, a prestar atenção às perspectivas culturais e linguísticas globais e a melhorar o efeito de treinamento da IA multilíngue.
Em suma, o modelo Aya Expanse lançado pela Cohere fez progressos significativos no campo da IA multilingue e a sua natureza de código aberto também fornece recursos valiosos para a investigação e desenvolvimento da comunidade global de IA. O editor do Downcodes acredita que isso promoverá ainda mais o progresso da tecnologia de IA multilíngue e promoverá o intercâmbio e compartilhamento global de informações.