Sana, model pembuatan gambar open source terbaru dari NVIDIA, telah membuat terobosan di bidang pembuatan gambar AI dengan ukurannya yang ringkas dan performa yang bertenaga. Sana hanya memiliki 60 juta parameter, namun dapat menghasilkan gambar definisi tinggi hingga 4096×4096 piksel dan mencapai kecepatan sub-generasi kedua pada kartu grafis 16GB. Hal ini disebabkan oleh autoencoder kompresi mendalam yang inovatif dan transformator difusi linier, serta optimalisasi pengkodean teks dan strategi inferensi. Performanya luar biasa di antara model serupa, bahkan dibandingkan dengan model dengan parameter lebih besar.
Baru-baru ini, NVIDIA telah membuka model pembuatan gambar bersumber yang disebut Sana. Model ini hanya memiliki 60 juta parameter, yang sangat mengurangi ambang batas pengoperasian.
Diketahui bahwa Sana dapat menghasilkan gambar dengan resolusi 4096x4096 dan dapat dijalankan pada kartu grafis 16GB. Ia dapat menghasilkan gambar berkualitas tinggi dengan resolusi 1024x1024 dalam waktu kurang dari 1 detik.
Tim peneliti memperkenalkan autoencoder kompresi dalam (DC-AE). Dibandingkan dengan autoencoder tradisional, Sana memiliki rasio kompresi hingga 32 kali lipat, sehingga sangat mengurangi jumlah label potensial, yang berguna untuk menghasilkan gambar beresolusi sangat tinggi. Penting. Kedua, Sana menggunakan transformator difusi linier (DiT) untuk menggantikan perhatian kuadrat tradisional dengan perhatian linier, sehingga mengurangi kompleksitas menjadi O (N), dan meningkatkan informasi lokal melalui kemampuan menangkap kedalaman 3×3. Desain ini meningkatkan latensi Sana sebesar 1,7 kali lipat saat menghasilkan gambar 4K.
Dalam hal pengkodean teks, Sana memilih Gemma, model bahasa besar khusus dekoder kecil, daripada model T5 tradisional. Gemma berkinerja lebih baik dalam memahami dan melaksanakan instruksi kompleks, meningkatkan kemampuan menyelaraskan gambar dan teks. Selain itu, Sana mengoptimalkan strategi pelatihan dan inferensi untuk meningkatkan konsistensi teks-gambar dengan memberi label otomatis dan memilih deskripsi dengan skor CLIP tinggi. Algoritme Flow-DPM-Solver yang baru diusulkan mengurangi langkah penalaran menjadi 14-20 langkah, sehingga meningkatkan kinerja secara signifikan.
Dalam hal kinerja secara keseluruhan, Sana berkinerja baik dalam beberapa model difusi teks-ke-gambar tingkat lanjut. Pada resolusi 512×512, Sana-0.6 memiliki throughput 5 kali lipat dari PixArt-Σ dan berkinerja baik dalam hal kualitas pembuatan gambar. Pada resolusi 1024×1024, Sana-0.6B juga memiliki keunggulan signifikan pada model dengan parameter kurang dari 300 juta.
Sana-0.6B tidak hanya memiliki performa yang kuat, namun juga dapat dengan cepat menghasilkan gambar pada GPU notebook 16GB, membantu pembuat konten mencapai tujuan kreatif mereka secara efisien. Dikatakan bahwa Sana0.6B juga bersaing dengan Flux-12B dalam hal kinerja. Jumlah parameternya hanya 1/20, tetapi kecepatannya 100 kali lebih cepat.
Menariknya, kata-kata cepat Sana mendukung bahasa Inggris, Mandarin, dan emoji. Pengguna dapat memasukkan puisi berbahasa Mandarin dan menghasilkan gambar artistik yang terkait dengannya. Selain itu, Sana juga memiliki tingkat keamanan tertentu. Ketika pengguna memasukkan kata-kata yang tidak pantas, sistem akan secara otomatis menggantinya dengan pola hati berwarna merah untuk menghindari pembuatan konten yang tidak pantas.
Misalnya, ketika AIbase memasukkan kata prompt "Seekor kucing sedang bermain di rumput, bintang", kecepatan pembuatannya sangat cepat, dan efeknya juga sangat bagus.
Contoh lainnya, dengan kata cepat "Yang lucu sedang makan, gaya melukis tinta", Anda dapat melihat bahwa model tersebut dapat mengidentifikasi emoji secara akurat.
Perlu disebutkan bahwa Sana telah menerima dukungan resmi untuk ComfyUI dan dilengkapi dengan alat pelatihan Lora. Hal ini membuat pengguna lebih nyaman untuk menggunakannya, dan kepraktisannya juga meningkat pesat. Teman yang berminat dapat mencobanya sendiri.
Pintu masuk proyek: https://nv-sana.mit.edu/
Menyorot:
**Generasi efisien**: Sana dapat dengan cepat menghasilkan gambar berkualitas tinggi dengan resolusi hingga 4096×4096, cocok untuk digunakan pada GPU notebook biasa.
**Desain inovatif**: Autoencoder kompresi dalam dan transformator difusi linier sangat meningkatkan kecepatan dan kualitas pembangkitan.
**Performa luar biasa**: Sana berkinerja baik dalam beberapa pengujian, dengan throughput yang jauh lebih tinggi dibandingkan model canggih lainnya, sehingga mendukung pembuatan konten yang cepat.
Secara keseluruhan, Sana menghadirkan pengalaman pembuatan gambar AI baru kepada pengguna dengan kecepatan pembuatan gambar yang efisien, keluaran gambar berkualitas tinggi, dan penggunaan yang nyaman. Perkembangannya di masa depan patut dinantikan.