Equipe de modelo de linguagem grande de código aberto OpenBuddy lança versão chinesa do modelo Llama3.1-8B

Autor：Eve Cole Data da Última Atualização：2024-12-14 09:32:01

O último lançamento da série Llama 3.1 de modelos de código aberto da Meta alcançou avanços significativos no desempenho, e sua versão de parâmetro 405B supera até mesmo alguns modelos de código fechado. Entre eles, a versão Llama3.1-8B-Instruct suporta vários idiomas, com comprimento de contexto de até 131.072 tokens, e é treinada com dados sintéticos massivos para melhorar suas capacidades de raciocínio em áreas como código e matemática. Com base neste modelo, a equipe do OpenBuddy lançou o modelo OpenBuddy-Llama3.1-8B-v22.1-131K que oferece suporte a perguntas e respostas em chinês e tradução entre idiomas, demonstrando o potencial dos modelos de código aberto em aplicativos multilíngues.

Meta lançou recentemente uma nova geração de modelos de código aberto da série Llama3.1, que inclui uma versão de parâmetro 405B cujo desempenho é próximo ou até mesmo superior a modelos de código fechado como o GPT-4 em alguns testes de benchmark. Llama3.1-8B-Instruct é uma versão de parâmetros 8B da série, suporta inglês, alemão, francês, italiano, português, espanhol, hindi e tailandês, comprimento de contexto de até 131072 tokens, prazo de conhecimento atualizado para 2023 de dezembro do ano.

Para aprimorar os recursos do Llama3.1-8B-Instruct, o Meta usou mais de 25 milhões de dados sintéticos em treinamento, que foram gerados pelo modelo 405B maior. Isso permite que o Llama3.1-8B-Instruct mostre capacidades cognitivas e de raciocínio semelhantes ao GPT3.5Turbo em codificação, matemática e outros testes.

OpenBuddy usa o modelo Llama3.1-8B-Instruct e treina com uma pequena quantidade de dados chineses para lançar OpenBuddy-Llama3.1-8B-v22.1-131k, uma nova geração com perguntas e respostas em chinês e recursos de tradução entre idiomas Modelo multilíngue de código aberto. Embora o Llama3.1 em si não possua capacidades chinesas, após o treinamento, o modelo é capaz de gerar respostas que normalmente apenas modelos maiores podem gerar em algumas questões que são propensas à confusão conceitual, mostrando um potencial cognitivo mais forte.

No entanto, devido às limitações do conjunto de dados de treinamento e do tempo, o OpenBuddy-Llama3.1-8B-v22.1 ainda tem limitações no conhecimento chinês, especialmente no conhecimento cultural tradicional. Apesar disso, o modelo apresenta desempenho relativamente estável em tarefas como compreensão de textos longos, que se beneficia de suas capacidades originais de textos longos.

No futuro, o OpenBuddy planeja realizar treinamento em larga escala dos modelos 8B e 70B para aumentar a reserva de conhecimento chinês do modelo, capacidade de texto longo e capacidade cognitiva, e explorar a possibilidade de ajuste fino do modelo 405B.

Endereço do projeto: https://modelscope.cn/models/OpenBuddy/openbuddy-llama3.1-8b-v22.1-131k

O lançamento do modelo OpenBuddy-Llama3.1-8B-v22.1-131k marca uma nova etapa no desenvolvimento de modelos multilíngues de código aberto. Embora ainda haja espaço para melhorias no conhecimento chinês, vale a pena olhar para o seu potencial. No futuro, à medida que a escala da formação de modelos se expande, espera-se que o seu desempenho melhore ainda mais. Esperamos mais surpresas da equipe OpenBuddy no futuro.