Llamagen, model generasi gambar autoregresif yang dikembangkan bersama oleh Universitas Hong Kong dan Bytedance, meluncurkan revolusi di bidang pembuatan gambar. Sebagai karya inovatif berdasarkan arsitektur LLAMA, ia tidak hanya menembus keterbatasan model difusi tradisional dalam teknologi, tetapi juga membangkitkan tanggapan yang antusias di komunitas open source.
Pada tolok ukur uji Imagenet, Llamagen melampaui model difusi arus utama seperti LDM dan DIT dengan kinerja yang sangat baik. Dengan melatih kembali tokenizer gambar, llamagen telah mencapai keunggulan yang signifikan pada dataset Imagenet dan Coco, dan kinerjanya bahkan telah melampaui model terkenal seperti VQGAN, VIT-VQGAN dan MASKGI.
Keberhasilan Llamagen dibangun di atas tiga pilar teknis inti: kompresi/quantizer gambar canggih, model pembuatan gambar yang dapat diskalakan, dan data pelatihan berkualitas tinggi yang disaring dengan cermat. Tim peneliti mengadopsi arsitektur CNN yang mirip dengan VQ-GAN untuk mengubah gambar berkelanjutan menjadi token diskrit melalui strategi pelatihan dua tahap, kualitas visual dan resolusi gambar secara signifikan ditingkatkan.
Pada fase pertama pelatihan, llamagen dilatih pada subset 50m Laion-Coco dengan resolusi gambar 256 × 256. Tim peneliti memastikan kualitas data pelatihan melalui standar skrining yang ketat, termasuk URL gambar yang efektif, skor estetika, skor watermark, dll. Tahap kedua menyempurnakan pada gambar kualitas estetika tinggi internal 10 juta skala, meningkatkan resolusi gambar menjadi 512 × 512, lebih lanjut mengoptimalkan efek generasi.
Keuntungan inti dari llamagen adalah tokenizer gambarnya yang sangat baik dan skalabilitas arsitektur llama. Dalam tes generasi aktual, llamagen menunjukkan daya saing yang kuat dalam indikator utama seperti FID, IS, presisi dan penarikan. Dibandingkan dengan model autoregresif sebelumnya, llamagen tampil dengan sangat baik pada semua pesanan parameter, menetapkan tolok ukur baru untuk bidang pembuatan gambar.
Meskipun Llamagen telah mencapai hasil yang luar biasa, tim peneliti mengatakan ini hanyalah awal dari fase difusi V1 yang stabil. Arah pengembangan di masa depan akan mencakup mendukung resolusi yang lebih tinggi, lebih banyak rasio aspek, kemampuan kontrol yang lebih kuat, dan bidang -bidang baru seperti pembuatan video. Rencana -rencana ini menunjukkan bahwa llamagen akan terus memimpin inovasi dalam teknologi pembuatan gambar di bidang yang lebih luas.
Saat ini, llamagen telah dibuka untuk pengalaman online, dan pengguna secara pribadi dapat mengalami teknologi revolusioner ini melalui ruang llamagen pada memeluk wajah. Pada saat yang sama, rilis open source llamagen juga menyediakan platform bagi pengembang dan peneliti global untuk berpartisipasi dan berkontribusi, bersama -sama mempromosikan kemajuan teknologi pembuatan gambar. Alamat proyek dan alamat pengalaman online adalah: https://top.aibase.com/tool/llamagen dan https://huggingface.co/spaces/foundationvision/llamagen, masing -masing.