Pembuatan gambar AI mengantarkan penguasa baru! Model open source FLUX.1 lahir, apakah Midjourney dan DALL·E 3 gugup?

Penulis：Eve Cole Waktu Pembaruan：2024-12-05 17:16:01

Bidang pembuatan gambar kecerdasan buatan berubah setiap hari. Setelah pembaruan Midjourney, model sumber terbuka FLUX.1 juga telah hadir. Performanya juga dikatakan melampaui model sumber tertutup seperti DALL·E3 dan Midjourney V6 sebagai model sumber terbuka seri SD3, menarik perhatian luas di industri. Editor Downcodes akan memberi Anda pemahaman mendalam tentang mahakarya baru yang diciptakan oleh Robin Rombach, seorang ahli berwibawa di bidang model difusi, serta inovasi teknologi dan prospek masa depan di baliknya.

Di bidang kecerdasan buatan, perubahan disruptif bisa terjadi setiap hari. Sehari setelah pembaruan besar Midjourney, bidang pembuatan gambar sumber terbuka menghadirkan kuda hitam yang menarik perhatian-FLUX.1. Pemain baru yang tiba-tiba ini tidak hanya mengklaim secara signifikan mengungguli model sumber tertutup seperti DALL·E3 dan Midjourney V6 dalam hal kinerja, tetapi juga mematikan seluruh seri SD3 sumber terbuka, langsung meledakkan lingkaran AI.

Mari kita kenali dulu dalang di balik FLUX.1. Pendirinya, Robin Rombach, bukanlah orang yang tidak dikenal, melainkan seorang ahli yang berwibawa di bidang model difusi. Karya perwakilannya meliputi VQGAN, Taming Transformers, dan Latent Diffusion. Ia pernah menjabat sebagai kepala ilmuwan Stability AI dan memimpin rangkaian proyek Difusi Stabil yang terkenal di dunia. Robin Rombach bisa dikatakan merupakan salah satu pengemudi berpengalaman di antara pengemudi berpengalaman di bidang pembuatan gambar AI.

Pada bulan Maret tahun ini, karena kekacauan internal di Stability AI, Robin memilih untuk keluar. Setelah empat bulan bekerja keras, dia kembali dengan platform model besar open source baru FLUX.1. Yang lebih mengejutkan lagi adalah ketika pertama kali diluncurkan, FLUX.1 menerima pendanaan awal sebesar US$32 juta yang dipimpin oleh lembaga modal ventura terkenal Andreessen Horowitz. Hal ini tidak diragukan lagi memberikan dorongan bagi pengembangan FLUX.1 di masa depan.

Jadi, apa yang luar biasa tentang FLUX.1? Pertama-tama, ini didasarkan pada arsitektur Vision Transformer, mengadopsi metode pelatihan pencocokan proses, dan menggunakan penyematan posisi rotasi dan lapisan perhatian paralel untuk meningkatkan kinerja model dan efisiensi pemanfaatan perangkat keras. Model 12 miliar parameter ini diluncurkan dalam tiga versi:

Versi Pro: digunakan melalui API, dengan kinerja paling kuat.
Versi pengembang: Model distilasi terpandu non-komersial yang mewarisi sebagian besar kinerja versi Pro.
Versi Schnell: Model open source yang dapat digunakan secara komersial dan memiliki kinerja luar biasa.

Menurut data pengujian tim FLUX.1, bahkan versi open source Schnell melampaui Midjourney v6.0 dan DALL·E3 (HD) dalam hal restorasi semantik teks, kualitas gambar, konsistensi tindakan, koherensi dan keragaman, serta model arus utama seperti SD3-Ultra. Khususnya dalam menyematkan teks ke dalam gambar, FLUX.1 menunjukkan keuntungan yang jelas.

Di sini, AIbase telah memilih beberapa tampilan efek generasi resmi untuk referensi Anda:

Gambar fotografi nyata

AIbase menguji santo pelindung kucing sebelumnya, dan tidak ada masalah sama sekali. FLUX.1 memahami kata-kata cepat dengan lebih akurat.

Tentu saja, ambisi FLUX.1 tidak berhenti sampai di situ. Tim mengatakan bahwa Vincent Picture hanyalah permulaan. Kedepannya, mereka juga berencana meluncurkan model Vincent Video untuk menantang produk lini pertama seperti Sora, Gen-3, dan Luma.

Bagi para pengembang dan penggemar AI, kemunculan FLUX.1 tidak diragukan lagi merupakan keuntungan besar. Versi Schnell sepenuhnya open source dan didukung oleh Comfyui. Jika Anda memiliki memori video lebih dari 36G, Anda bahkan dapat menjalankan t5 versi fp16. Namun perlu diperhatikan bahwa t5xxl_fp16.safetensors atau clip_l.safetensors dan VAE perlu diunduh secara terpisah.

Kemunculan FLUX.1 tidak hanya membawa harapan baru pada bidang pembuatan gambar AI open source, namun juga memberikan vitalitas baru pada seluruh industri AI. Performanya yang bertenaga dan fitur-fitur open source kemungkinan besar akan mempercepat popularitas dan inovasi teknologi pembuatan gambar AI. Bagi pengguna biasa, ini berarti kami akan segera dapat menjalankan model pembuatan gambar AI di komputer rumah kami yang menyaingi atau bahkan melampaui Midjourney.

Alamat proyek: https://github.com/black-forest-labs/flux

Alamat percobaan: https://replication.com/black-forest-labs/flux-pro

Alur kerja yang nyaman: https://comfyanonymous.github.io/ComfyUI_examples/flux/

Secara keseluruhan, kemunculan FLUX.1 menandai babak baru dalam bidang pembuatan gambar AI sumber terbuka. Performanya yang kuat dan fitur-fitur sumber terbuka akan sangat mendorong popularitas dan perkembangan teknologi pembuatan gambar AI. Kami menantikan FLUX.1 menghadirkan lebih banyak kejutan di masa mendatang!