Di era ketika perangkat seluler dan rumah pintar semakin populer, menjalankan model bahasa besar (LLM) secara efisien telah menjadi kebutuhan yang mendesak. Namun, terbatasnya sumber daya komputasi dan memori perangkat edge menjadi hambatan. Artikel ini memperkenalkan teknologi T-MAC, sebuah metode berdasarkan tabel pencarian, yang secara signifikan dapat meningkatkan efisiensi pengoperasian LLM bit rendah pada perangkat edge, menghadirkan kemampuan pemrosesan cerdas yang lebih kuat ke perangkat pintar, sehingga mencapai pengguna pintar yang lebih nyaman dan efisien pengalaman.
Di era dimana perangkat pintar ada di mana-mana, kami ingin sekali membuat ponsel, tablet, dan bahkan perangkat rumah pintar memiliki kemampuan pemrosesan cerdas yang lebih canggih. Namun, perangkat edge ini memiliki sumber daya perangkat keras yang terbatas, terutama memori dan daya komputasi, sehingga membatasi penerapan dan pengoperasian model bahasa besar (LLM) pada perangkat tersebut. Bayangkan bagaimana dunia kita akan berubah jika kita dapat melengkapi perangkat ini dengan model canggih yang dapat memahami bahasa alami, menjawab pertanyaan, dan bahkan berkreasi?
Hal inilah yang melatarbelakangi lahirnya teknologi T-MAC. T-MAC, nama lengkap MAC berbasis Table-Lookup, adalah metode berdasarkan tabel pencarian, yang memungkinkan model bahasa berukuran besar dan bit rendah berjalan secara efisien di CPU, sehingga mencapai peningkatan cerdas pada perangkat edge.
Model bahasa yang besar sering kali berisi miliaran atau bahkan puluhan miliar parameter, yang memerlukan memori dalam jumlah besar untuk menyimpannya. Untuk menerapkan model ini pada perangkat edge, kita perlu mengkuantisasi bobot model, yaitu menggunakan lebih sedikit bit untuk merepresentasikan bobot, sehingga mengurangi jejak memori model. Namun, model terkuantisasi memerlukan perkalian matriks presisi campuran (mpGEMM) selama pengoperasiannya, yang tidak umum terjadi pada sistem perangkat keras dan perangkat lunak yang ada dan tidak memiliki dukungan yang efisien.
Ide inti T-MAC adalah mengubah operasi perkalian berbasis tipe data tradisional menjadi pencarian tabel pencarian berbasis bit (LUT). Metode ini tidak hanya menghilangkan operasi perkalian, tetapi juga mengurangi operasi penjumlahan, sehingga sangat meningkatkan efisiensi operasional.
Secara khusus, T-MAC diimplementasikan melalui langkah-langkah berikut:
Dekomposisi matriks bobot menjadi beberapa matriks satu bit.
Hitung terlebih dahulu produk vektor aktivasi dengan semua kemungkinan pola satu-bit dan simpan hasilnya dalam tabel pencarian.
Selama inferensi, hasil perkalian matriks akhir diperoleh dengan cepat melalui indeks tabel pencarian dan operasi akumulasi.
Melalui pengujian pada berbagai perangkat edge, T-MAC telah menunjukkan keunggulan kinerja yang signifikan. Dibandingkan dengan implementasi llama.cpp yang ada, T-MAC meningkatkan throughput sebanyak 4 kali lipat dan mengurangi konsumsi energi sebesar 70%. Hal ini memungkinkan bahkan perangkat kelas bawah, seperti Raspberry Pi5, untuk menghasilkan token lebih cepat daripada kecepatan membaca rata-rata orang dewasa.
T-MAC tidak hanya memiliki keunggulan teoretis, namun juga memiliki potensi untuk penerapan praktis. Baik itu melakukan pengenalan suara real-time dan pemrosesan bahasa alami pada ponsel cerdas, atau memberikan pengalaman interaktif yang lebih cerdas pada perangkat rumah pintar, T-MAC dapat memainkan peran penting.
Teknologi T-MAC memberikan solusi yang efisien dan hemat energi untuk penerapan model bahasa besar bit rendah pada perangkat edge. Ini tidak hanya dapat meningkatkan tingkat kecerdasan perangkat, tetapi juga memberikan pengalaman cerdas yang lebih kaya dan nyaman bagi pengguna. Dengan pengembangan dan optimalisasi teknologi yang berkelanjutan, kami mempunyai alasan untuk percaya bahwa T-MAC akan memainkan peran yang semakin penting dalam bidang kecerdasan tepi.
Alamat sumber terbuka: https://github.com/microsoft/T-MAC
Alamat makalah: https://www.arxiv.org/pdf/2407.00088
Kemunculan teknologi T-MAC telah membawa terobosan baru di bidang komputasi edge. Efisiensinya yang tinggi dan penghematan energi membuatnya memiliki prospek penerapan yang luas di berbagai perangkat pintar. Saya yakin di masa depan, T-MAC akan semakin ditingkatkan dan berkontribusi dalam membangun dunia yang lebih cerdas dan nyaman.