Este artículo presenta BiTA, una tecnología innovadora que acelera la generación de modelos de lenguaje grandes (LLM) mediante sintonización bidireccional y tecnología de decodificación de árboles. Adopta una arquitectura universal y un diseño conectable, y es especialmente adecuado para escenarios de aplicaciones en tiempo real como chatbots. La eficiencia de BiTA se refleja en su logro de efectos de aceleración de 2,1× a 3,3× en una amplia gama de pruebas de tareas de generación, y su diseño de pista ajustable facilita su aplicación a varios LLM basados en transformadores.
En los últimos años, BiTA ha acelerado la generación de grandes modelos de lenguaje (LLM) a través de innovaciones tecnológicas en sintonización bidireccional y decodificación de árboles. Al adoptar una arquitectura universal y un diseño conectable, es especialmente adecuado para aplicaciones en tiempo real como los chatbots. Mediante el ajuste bidireccional y la verificación del borrador SAR, se logra una aceleración sin pérdidas del modelo de lenguaje autorregresivo. El estudio encontró que BiTA logró impresionantes aceleraciones de 2,1× a 3,3× cuando se probó en una amplia gama de tareas de generación. Su diseño de sugerencia ajustable lo convierte en un método plug-and-play que se puede utilizar con cualquier LLM basado en transformador de acceso público.La aparición de la tecnología BiTA ha traído importantes mejoras de rendimiento a la aplicación de modelos de lenguaje grandes. Su eficiencia y facilidad de uso hacen que tenga amplias perspectivas de aplicación en el futuro. Investigaciones adicionales pueden explorar el rendimiento de BiTA en más tipos de LLM y escenarios de aplicación, y cómo optimizar aún más su eficiencia y escalabilidad.