Quatro linhas de código triplicam o contexto de um modelo grande, aplicável tanto a Yangtuo Mistral

Autor：Eve Cole Data da Última Atualização：2025-01-22 10:16:01

Estudiosos chineses propuseram um novo método de extensão de janela de modelo grande chamado SelfExtended (SE), que pode triplicar o comprimento da janela de modelos grandes com apenas quatro linhas de código. Esta tecnologia inovadora é compatível “plug and play” com uma variedade de modelos grandes e foi comprovada nos modelos Mistral e Llama2. Através do método SE, o desempenho de grandes modelos no processamento de tarefas de texto longo foi significativamente melhorado, resolvendo efetivamente o problema de excesso de codificação enfrentado por grandes modelos ao processar textos longos. Isso fornece novas direções e possibilidades para modelos grandes lidarem com tarefas complexas de texto longo.

Estudiosos chineses lançaram um novo método de extensão de janela de modelo grande, SelfExtended (SE para abreviar), que pode triplicar o comprimento da janela de modelos grandes com apenas quatro linhas de código. SE é um método "plug and play" que pode se adaptar a qualquer modelo grande e foi testado com sucesso em Mistral e Llama2. Depois de usar o processamento SE, o desempenho do modelo em tarefas de texto longo é significativamente melhorado. SE usa dois mecanismos de atenção para resolver o problema de limite de codificação encontrado por modelos grandes ao processar textos longos.

O surgimento do método SelfExtended (SE) fornece uma solução simples e eficiente para o problema de processamento de textos longos em modelos grandes. Seu recurso "plug and play" também facilita a aplicação em vários modelos grandes, demonstrando sua poderosa praticidade. e amplas perspectivas de aplicação. No futuro, a melhoria e o aperfeiçoamento dos métodos SE trarão mais possibilidades para o desenvolvimento de tecnologia de modelos de grande porte.