Stability AI merilis model Stable Diffusion 3.5 generasi baru, tiga versi, kecepatan yang sangat ditingkatkan

Penulis：Eve Cole Waktu Pembaruan：2024-11-27 20:36:01

Editor Downcodes mengetahui bahwa Stability AI baru-baru ini merilis model generasi teks-ke-gambar Stable Diffusion 3.5, yang mencakup tiga versi: Stable Diffusion 3.5 Large, Stable Diffusion 3.5 Large Turbo, dan Stable Diffusion 3.5 Medium, yang dirancang untuk memenuhi kebutuhan pengguna yang berbeda, dari Profesional hingga penggemar biasa. Pembaruan ini merupakan respon Stability AI terhadap kekurangan versi sebelumnya dan bertujuan untuk meningkatkan daya saingnya serta bersaing dengan platform seperti DALL-E dan Midjourney milik OpenAI. Model baru ini memiliki peningkatan signifikan dalam kualitas gambar, kecepatan pembuatan, dan kemudahan penggunaan, serta memperkenalkan teknologi normalisasi kunci kueri untuk meningkatkan penyesuaian model dan respons terhadap perintah.

Stability AI baru-baru ini meluncurkan model pembelajaran mendalam terbaru yang menghasilkan teks-ke-gambar - Stable Diffusion3.5. Rilis ini mencakup tiga model sumber terbuka yang ditingkatkan yang dirancang untuk memenuhi kebutuhan berbagai pengguna, termasuk peneliti, pelanggan perusahaan, dan penggemar.

Diantaranya, Stable Diffusion3.5Large adalah model paling kuat di seluruh seri, dengan parameter setinggi 8,1 miliar. Model ini ideal untuk pengguna profesional karena kualitas gambarnya yang sangat baik dan respons yang tinggi terhadap perintah, mampu menghasilkan gambar berkualitas tinggi dengan resolusi hingga 1 megapiksel.

Selain itu, Stable Diffusion3.5Large Turbo adalah versi sederhana dari Stable Diffusion3.5Large. Ini sangat meningkatkan kecepatan sekaligus menghasilkan gambar berkualitas tinggi. Hanya membutuhkan 4 langkah untuk menyelesaikan pembuatan gambar. Ini lebih efisien daripada versi sebelumnya dan cocok untuk pengguna yang perlu membuat gambar dengan cepat.

Model baru lainnya adalah Stable Diffusion3.5Medium, yang memiliki 2,5 miliar parameter. Model ini menggunakan arsitektur dan metode pelatihan MMDiT-X yang ditingkatkan, dan dirancang untuk digunakan "di luar kotak" dan berjalan dengan lancar bahkan pada perangkat keras tingkat konsumen. Ini memberikan keseimbangan yang baik antara kualitas pembuatan gambar dan kemudahan penyesuaian, menghasilkan gambar dari 0,25 hingga 2 megapiksel.

Latar belakang peluncuran ini adalah setelah rilis Stable Diffusion3Medium pada bulan Juni gagal memenuhi harapan, Stability AI memutuskan untuk meluncurkan solusi yang lebih transformatif. Perusahaan berharap dapat memperoleh kembali daya saing pasar dengan pembaruan ini untuk menghadapi tantangan dari platform seperti DALL-E dan Midjourney OpenAI.

Inovasi teknis penting dari model baru ini adalah pengenalan teknologi Normalisasi Query-Key. Inovasi ini meningkatkan penyesuaian model dan respons terhadap perintah, memungkinkan pengguna mencapai hasil yang lebih konsisten dengan perintah eksplisit, serta interpretasi gambar yang lebih kaya saat menggunakan perintah yang lebih luas.

Seri model Stable Diffusion3.5 akan dirilis di bawah lisensi komunitas Stability AI, memungkinkan pengguna menggunakannya secara gratis untuk penggunaan non-komersial. Pada saat yang sama, entitas dengan pendapatan tahunan kurang dari US$1 juta juga dapat menggunakannya secara gratis, dan pengguna dengan pendapatan lebih dari ini perlu mengajukan izin perusahaan.

Semua model dan bobot yang diperlukan untuk hosting mandiri akan tersedia di API Hugging Face dan Stability AI. Selain itu, fungsionalitas ControlNets yang menyediakan opsi penyesuaian gambar tingkat lanjut diharapkan akan diluncurkan dalam beberapa hari mendatang.

Pintu masuk resmi:

https://stability.ai/stable-image

Tiga versi pintu masuk Hugging Face:

https://huggingface.co/stabilityai/stable-diffusion-3.5-large

https://huggingface.co/stabilityai/stable-diffusion-3.5-large-turbo

https://huggingface.co/stabilityai/stable-diffusion-3.5-medium

Secara keseluruhan, peluncuran seri Stable Diffusion 3.5 menandai kemajuan penting dalam teknologi pembuatan teks-ke-gambar, memberikan pengguna lebih banyak pilihan dan fitur yang lebih canggih. Editor Downcodes menantikan munculnya fitur-fitur yang lebih inovatif di masa depan.