Artikel ini memperkenalkan studi terobosan oleh peneliti ByteDance dan POSTECH yang secara signifikan meningkatkan efisiensi komputasi model text-to-image (T2I) FLUX.1-dev melalui teknologi kuantisasi 1,58-bit, sehingga memungkinkannya beroperasi di bawah batasan sumber daya yang berjalan pada perangkat. Metode ini hanya memerlukan pembelajaran mandiri dari model itu sendiri dan tidak memerlukan akses ke data gambar. Metode ini dapat memampatkan ruang penyimpanan model sebesar 7,7 kali lipat dan mengurangi penggunaan memori inferensi lebih dari 5,1 kali lipat, sekaligus mempertahankan kualitas pembangkitan yang sebanding dengan presisi penuh. model. Penelitian ini memberikan kemungkinan baru untuk menerapkan model T2I berkinerja tinggi pada perangkat seluler dan platform lainnya, dan juga memberikan pengalaman berharga untuk penelitian pengoptimalan model AI di masa depan.
Pesatnya perkembangan model pembuatan teks-ke-gambar yang digerakkan oleh kecerdasan buatan telah membawa peluang dan tantangan baru bagi semua lapisan masyarakat. Hasil penelitian ByteDance dan POSTECH memberikan solusi efektif untuk memecahkan masalah penerapan model AI berkinerja tinggi pada perangkat dengan sumber daya terbatas. Peningkatan signifikan mereka dalam kompresi model, optimalisasi memori, dan pemeliharaan kinerja akan membuka jalan bagi aplikasi AI di masa depan. Popularisasi dan pembangunan telah meletakkan dasar yang kokoh. Penelitian di masa depan akan mengeksplorasi lebih jauh bagaimana mengatasi keterbatasan FLUX 1,58-bit dalam kecepatan dan rendering detail gambar resolusi tinggi untuk memungkinkan aplikasi yang lebih luas.