Cet article présente BiTA, une technologie innovante qui accélère la génération de grands modèles de langage (LLM) grâce à la technologie de réglage bidirectionnel et de décodage arborescent. Il adopte une architecture universelle et une conception enfichable, et est particulièrement adapté aux scénarios d'application en temps réel tels que les chatbots. L'efficacité de BiTA se reflète dans l'obtention d'effets d'accélération de 2,1 × à 3,3 × dans une large gamme de tests de tâches de génération, et sa conception d'indices réglables le rend facile à appliquer à divers LLM basés sur des transformateurs.
Ces dernières années, BiTA a accéléré la génération de grands modèles de langage (LLM) grâce à des innovations technologiques en matière de réglage bidirectionnel et de décodage arborescent. Adoptant une architecture universelle et une conception enfichable, il est particulièrement adapté aux applications en temps réel telles que les chatbots. Grâce au réglage bidirectionnel et à la vérification du projet SAR, une accélération sans perte du modèle de langage autorégressif est obtenue. L’étude a révélé que BiTA a atteint des accélérations impressionnantes de 2,1× à 3,3× lorsqu’il a été testé sur un large éventail de tâches de génération. Sa conception d'indices réglables en fait une méthode plug-and-play qui peut être utilisée avec n'importe quel LLM basé sur un transformateur accessible au public.L'émergence de la technologie BiTA a apporté des améliorations significatives des performances à l'application de grands modèles de langage. Son efficacité et sa facilité d'utilisation lui confèrent de larges perspectives d'application dans le futur. Des recherches plus approfondies pourraient explorer les performances de BiTA dans davantage de types de LLM et de scénarios d'application, ainsi que la manière d'optimiser davantage son efficacité et son évolutivité.