Dalam beberapa tahun terakhir, teknologi pembuatan gambar AI telah berkembang pesat, namun biaya komputasi yang tinggi telah membatasi popularitasnya. Artikel ini memperkenalkan kerangka kerja teks-ke-gambar baru yang disebut Sana, yang menonjol karena kemampuan pembuatan gambarnya yang efisien dan biaya operasional yang rendah. Sana mampu menghasilkan gambar ultra-definisi tinggi hingga resolusi 4096×4096 pada GPU laptop biasa, jauh lebih cepat dari teknologi yang ada. Inovasi inti kerangka kerja ini terletak pada kombinasi autoencoder kompresi mendalam, DiT linier, encoder teks bergaya decoder, serta strategi pelatihan dan pengambilan sampel yang efisien.
Teknologi pembuatan gambar AI berkembang pesat, tetapi ukuran modelnya semakin besar, dan biaya pelatihan serta penggunaannya sangat tinggi bagi pengguna biasa. Kini, kerangka kerja teks-ke-gambar baru yang disebut "Sana" telah muncul. Kerangka kerja ini dapat secara efisien menghasilkan gambar definisi ultra-tinggi dengan resolusi hingga 4096×4096, dan sangat cepat bahkan dapat dijalankan pada GPU sebuah. laptop.
Desain inti Sana meliputi:
Autoencoder kompresi dalam: Tidak seperti autoencoder tradisional yang hanya mengompresi gambar sebanyak 8 kali, autoencoder yang digunakan oleh Sana dapat mengompresi gambar sebanyak 32 kali, sehingga secara efektif mengurangi jumlah token potensial. Hal ini penting untuk pelatihan yang efisien dan pembuatan gambar beresolusi sangat tinggi.
Linear DiT:Sana menggantikan semua mekanisme perhatian tradisional di DiT dengan perhatian linier, yang meningkatkan efisiensi pemrosesan gambar resolusi tinggi tanpa mengorbankan kualitas. Perhatian linier mengurangi kompleksitas komputasi dari O(N²) menjadi O(N). Selain itu, Sana juga menggunakan Mix-FFN untuk mengintegrasikan konvolusi kedalaman 3x3 ke dalam MLP untuk mengumpulkan informasi token lokal dan tidak lagi memerlukan pengkodean posisi.
Encoder teks bergaya decoder: Sana menggunakan LLM kecil bergaya decoder terbaru (seperti Gemma) sebagai encoder teks, menggantikan CLIP atau T5 yang umum digunakan. Pendekatan ini meningkatkan kemampuan model untuk memahami dan mempertimbangkan isyarat pengguna, serta meningkatkan keselarasan gambar-teks melalui instruksi manusia yang kompleks dan pembelajaran kontekstual.
Strategi pelatihan dan pengambilan sampel yang efisien: Sana mengadopsi Flow-DPM-Solver untuk mengurangi langkah pengambilan sampel, dan menggunakan anotasi judul dan metode pemilihan yang efisien untuk mempercepat konvergensi model. Model Sana-0.6B 20 kali lebih kecil dan 100 kali lebih cepat dibandingkan model difusi besar seperti Flux-12B.
Sana inovatif karena secara signifikan mengurangi latensi inferensi dengan:
Pengoptimalan algoritma dan sistem secara kolaboratif: Melalui berbagai metode pengoptimalan, Sana mengurangi waktu pembuatan gambar 4096x4096 dari 469 detik menjadi 9,6 detik, yang 106 kali lebih cepat dibandingkan model Flux tercanggih saat ini.
Autoencoder kompresi mendalam: Sana menggunakan struktur AE-F32C32P1 untuk mengompresi gambar sebanyak 32 kali, sehingga secara signifikan mengurangi jumlah token serta mempercepat pelatihan dan inferensi.
Perhatian linier: Menggunakan perhatian linier untuk menggantikan mekanisme perhatian mandiri tradisional meningkatkan efisiensi pemrosesan gambar resolusi tinggi.
Akselerasi Triton: Gunakan Triton untuk menggabungkan inti proses maju dan mundur dari modul perhatian linier untuk lebih mempercepat pelatihan dan inferensi.
Flow-DPM-Solver: Mengurangi langkah pengambilan sampel inferensi dari 28-50 langkah menjadi 14-20 langkah sekaligus mencapai hasil pembangkitan yang lebih baik.
Performa Sana luar biasa. Pada resolusi 1024x1024, parameter model Sana-0.6B hanya 590 juta, namun kinerja keseluruhan mencapai 0.64GenEval, yang sebanding dengan banyak model yang lebih besar. Selain itu, Sana-0.6B dapat digunakan pada GPU laptop 16GB dan menghasilkan gambar beresolusi 1024×1024 dalam waktu kurang dari 1 detik. Untuk pembuatan gambar 4K, Sana-0.6B mencapai throughput lebih dari 100 kali lebih cepat dibandingkan metode canggih (FLUX). Sana tidak hanya mencapai terobosan dalam kecepatan, tetapi juga bersaing dalam kualitas gambar. Bahkan dalam adegan kompleks seperti rendering teks dan detail objek, performa Sana memuaskan.
Selain itu, Sana juga memiliki kemampuan migrasi bahasa tanpa sampel yang kuat. Bahkan ketika dilatih hanya dengan data bahasa Inggris, Sana dapat memahami isyarat bahasa Mandarin dan emoji serta menghasilkan gambar yang sesuai.
Kemunculan Sana menurunkan ambang batas untuk menghasilkan gambar berkualitas tinggi dan menyediakan alat pembuatan konten yang canggih bagi para profesional dan pengguna biasa. Kode dan model Sana akan dirilis ke publik.
Alamat pengalaman: https://nv-sana.mit.edu/
Alamat makalah: https://arxiv.org/pdf/2410.10629
Github:https://github.com/NVlabs/Sana
Secara keseluruhan, Sana telah mencapai kemajuan terobosan di bidang pembuatan gambar dengan algoritme yang efisien dan desain sistem yang dioptimalkan, menghadirkan kenyamanan yang belum pernah ada sebelumnya dan pengalaman pembuatan gambar berkualitas tinggi bagi pengguna. Fitur open source-nya juga berkontribusi signifikan terhadap pengembangan teknologi pembuatan gambar AI.