Artikel ini memperkenalkan BiTA, sebuah teknologi inovatif yang mempercepat pembuatan model bahasa besar (LLM) melalui penyetelan dua arah dan teknologi decoding pohon. Ini mengadopsi arsitektur universal dan desain pluggable, dan sangat cocok untuk skenario aplikasi real-time seperti chatbots. Efisiensi BiTA tercermin dalam pencapaian efek akselerasi 2,1× hingga 3,3× dalam berbagai uji tugas pembangkitan, dan desain petunjuknya yang dapat disesuaikan membuatnya mudah diterapkan ke berbagai LLM berbasis transformator.
Dalam beberapa tahun terakhir, BiTA telah mempercepat pembuatan model bahasa besar (LLM) melalui inovasi teknologi dalam penyetelan dua arah dan decoding pohon. Mengadopsi arsitektur universal dan desain pluggable, ini sangat cocok untuk aplikasi real-time seperti chatbots. Melalui penyetelan dua arah dan verifikasi draf SAR, akselerasi model bahasa autoregresif yang lossless dapat dicapai. Studi ini menemukan bahwa BiTA mencapai kecepatan yang mengesankan sebesar 2,1× hingga 3,3× ketika diuji pada berbagai tugas pembangkitan. Desain petunjuknya yang dapat disesuaikan menjadikannya metode plug-and-play yang dapat digunakan dengan LLM berbasis transformator yang dapat diakses publik.Munculnya teknologi BiTA telah membawa peningkatan kinerja yang signifikan pada penerapan model bahasa besar. Efisiensi dan kemudahan penggunaannya menjadikannya memiliki prospek penerapan yang luas di masa depan. Penelitian lebih lanjut dapat mengeksplorasi kinerja BiTA di lebih banyak jenis LLM dan skenario aplikasi, serta cara mengoptimalkan efisiensi dan skalabilitasnya.