A equipe do Alibaba Cloud Tongyi Qianwen lançou recentemente a nova série de modelos de código aberto QWEN2.5-1M, que contém dois modelos: QWEN2.5-7B-Instruct-1M e Qwen2.5-14b-Instruct-1M, seus maiores destaques é nativamente Suportado por milhões de comprimentos de contexto de token e melhorou significativamente a velocidade de inferência. Isso marca um grande avanço no processamento de textos ultra-longos e eficiência de inferência do modelo, fornecendo a possibilidade de grandes modelos a serem aplicados a tarefas mais complexas e de formato mais longo. Este lançamento demonstra novamente as capacidades técnicas de força e inovação da Alibaba Cloud no campo da inteligência artificial, que merece atenção e aprendizado da indústria.
O modelo da série QWEN2.5-1M lançado desta vez pode não apenas processar documentos ultra longos, como livros, relatórios e documentos legais, sem divisão tediosa; (como compreensão de código, raciocínio complexo, várias rodadas de conversas, etc.). Além disso, a estrutura de inferência e o mecanismo de atenção escasso baseado no VLLM aumentou a velocidade de inferência do modelo em 3 a 7 vezes, melhorando bastante a experiência do usuário e a eficiência do aplicativo. O lançamento do QWEN2.5-1M, sem dúvida, promoverá ainda mais o desenvolvimento e a aplicação da tecnologia de modelos de grandes idiomas.
O destaque central do QWEN2.5-1M é seu suporte nativo para a capacidade de processamento de contexto ultra-longa de milhões de tokens. Isso permite que o modelo lide facilmente com documentos ultra longos, como livros, relatórios longos, documentos legais etc. sem a necessidade de segmentação tediosa. Ao mesmo tempo, o modelo também suporta conversas mais longas e profundas, que podem se lembrar do histórico de conversas mais longo e obter uma experiência interativa mais coerente e natural. Além disso, o QWEN2.5-1M também demonstra habilidades mais fortes na compreensão de tarefas complexas, como entendimento de código, raciocínio complexo e várias rodadas de diálogo.
Além do comprimento chocante do contexto de milhões de tokens, o QWEN2.5-1M também traz outro avanço importante: uma estrutura de inferência de raio! . Essa estrutura inovadora permite que o QWEN2.5-1M aumente a velocidade em 3 a 7 vezes ao processar milhões de entradas de token!
A liberação do QWEN2.5-1M não é apenas um avanço tecnológico, mas também abre uma nova situação para a aplicação prática de grandes modelos. Sua duração de contexto e velocidade eficiente de inferência capacitarão mais cenários de aplicação e promoverão a implementação da tecnologia de inteligência artificial em todas as esferas da vida. Acredito que, no futuro, veremos aplicativos mais inovadores com base no QWEN2.5-1M.