Este artigo apresenta BiTA, uma tecnologia inovadora que acelera a geração de grandes modelos de linguagem (LLMs) por meio de ajuste bidirecional e tecnologia de decodificação de árvore. Ele adota uma arquitetura universal e design conectável e é especialmente adequado para cenários de aplicação em tempo real, como chatbots. A eficiência do BiTA é refletida na obtenção de efeitos de aceleração de 2,1× a 3,3× em uma ampla gama de testes de tarefas de geração, e seu design de dica ajustável facilita a aplicação a vários LLMs baseados em transformadores.
Nos últimos anos, a BiTA acelerou a geração de grandes modelos de linguagem (LLMs) através de inovações tecnológicas em sintonia bidirecional e decodificação de árvore. Adotando uma arquitetura universal e design conectável, é especialmente adequado para aplicações em tempo real, como chatbots. Através do ajuste bidirecional e da verificação de rascunho de SAR, é alcançada uma aceleração sem perdas do modelo de linguagem autoregressivo. O estudo descobriu que o BiTA alcançou velocidades impressionantes de 2,1× a 3,3× quando testado em uma ampla gama de tarefas de geração. Seu design de dica ajustável o torna um método plug-and-play que pode ser usado com qualquer LLM baseado em transformador acessível ao público.O surgimento da tecnologia BiTA trouxe melhorias significativas de desempenho para a aplicação de grandes modelos de linguagem. Sua eficiência e facilidade de uso fazem com que ela tenha amplas perspectivas de aplicação no futuro. Mais pesquisas podem explorar o desempenho do BiTA em mais tipos de LLMs e cenários de aplicação, e como otimizar ainda mais sua eficiência e escalabilidade.