Modelo de grande idioma de código aberto de Tencent Hunyuan -Large suporta até 256k seqüências de texto - artigos de IA

Autor：Eve Cole Data da Última Atualização：2025-02-12 19:32:01

A Tencent anunciou hoje o código aberto de seu grande modelo de idioma chamado Hunyuan-Large, com uma escala de parâmetros de 398b e um volume de parâmetros de ativação de 52b. O modelo tem um bom desempenho em vários benchmarks autoritários, superando modelos de código aberto semelhantes, como o LLAMA 3.1 e o mixtral. Suas inovações tecnológicas incluem a aplicação de dados sintéticos de alta qualidade, que resolvem efetivamente o problema de dados naturais insuficientes e suporta sequências de texto de até 256k, melhorando significativamente os recursos de processamento de texto longo. Além disso, a Tencent também abriu o conjunto de dados de avaliação chamado "Penguin Scroll", com o objetivo de compensar a falta de conjuntos de avaliação de texto de alta qualidade no setor e promover o desenvolvimento da tecnologia de grandes modelos.

A Tencent lançou hoje o modelo de grande idioma de código aberto Hunyuan-Large, com um volume total de parâmetros de 398b e um volume de parâmetros de ativação de 52b. Os resultados da avaliação pública mostram que o tencent hunyuan grande está liderando em CMMLU, MMLU, CEVA1, matemática e outros conjuntos de avaliações abrangentes multidisciplinares, além de nove dimensões como tarefas de NLP em chinês e inglês, código e matemática, superando os majors de primeira classe, como como os majors de primeira classe, como tais, como como llama3.1 e mixtral.

Entende-se que esse modelo pode obter dados sintéticos de alta qualidade na inovação tecnológica e lidar efetivamente com as deficiências dos dados naturais através do uso de dados sintéticos. Em termos de recursos de processamento de contexto, o modelo pré-treinado suporta sequências de texto até 256k, aumentando significativamente a capacidade de lidar com tarefas de contexto longas.

Ao mesmo tempo, a Tencent Hunyuan anunciou que, para preencher as deficiências dos conjuntos de revisão de artigos reais no setor, o Tencent Hunyuan em breve abrirá o conjunto de revisão de rolagem do Penguin de código para ajudar a pesquisa aplicada do setor. Os pergaminhos de pinguim autodesenvolvidos são baseados em uma variedade de textos longos naturais, como finanças públicas, direito e trabalhos acadêmicos.

A liberação do modelo de grande idioma de grande linguagem Hunyuan e o código aberto do conjunto de avaliação de rolagem do Penguin fornecerá ao setor modelos de idiomas e ferramentas de avaliação mais poderosas para promover o desenvolvimento de processamento de linguagem natural e inteligência artificial.

Endereço oficial do site: https://llm.hunyuan.tencent.com

O código aberto de Hunyuan-Large e a liberação simultânea do conjunto de revisão de rolagem do pinguim marcam outro grande avanço para Tencent no campo de grandes modelos de idiomas, fornecendo forte apoio à pesquisa acadêmica e aplicações industriais, e vale a pena esperar seu futuro Desenvolvimento da inteligência artificial.