Pembuatan gambar fotorealistik beresolusi tinggi dari teks ke gambar selalu menjadi masalah yang sulit dalam bidang visi komputer. Meskipun metode pembangkitan tradisional seperti model difusi dan model autoregresif transformasi dapat menghasilkan gambar berkualitas tinggi, metode tersebut menghadapi masalah seperti konsumsi sumber daya komputasi yang besar dan hilangnya detail. Kerangka kerja baru "Infinity" yang diusulkan oleh ByteDance bertujuan untuk memecahkan tantangan ini. Kerangka kerja ini secara signifikan meningkatkan efisiensi generasi dan kualitas gambar melalui penandaan tingkat bit yang inovatif dan pengklasifikasi kosakata yang tak terbatas.
Di bidang pembuatan gambar, tugas gambar beresolusi tinggi dan fotorealistik selalu menghadapi berbagai tantangan, terutama dalam proses sintesis teks-ke-gambar. Metode generatif tradisional sebagian besar mengandalkan model difusi dan kerangka transformasi autoregresif (VAR).
Meskipun model ini mampu menghasilkan gambar berkualitas tinggi, model ini mengonsumsi sumber daya komputasi dalam jumlah besar, sehingga tidak fleksibel untuk aplikasi real-time. Pada saat yang sama, model VAR rentan terhadap kesalahan kumulatif saat memproses penanda diskrit, yang mengakibatkan hilangnya detail pada gambar yang dihasilkan, sehingga memengaruhi realisme gambar.
Untuk mengatasi kekurangan ini, tim peneliti ByteDance meluncurkan kerangka kerja baru yang disebut “Infinity”, yang dirancang untuk meningkatkan efisiensi dan kualitas sintesis teks-ke-gambar.
Infinity mencapai representasi yang lebih halus dengan memperkenalkan tag tingkat bit daripada tag tingkat indeks tradisional, sehingga secara signifikan mengurangi kesalahan kuantisasi dan meningkatkan realisme gambar yang dihasilkan. Selain itu, kerangka kerja ini menggunakan Infinite Vocabulary Classifier (IVC) untuk memperluas kosakata token hingga 2^64, sehingga secara signifikan mengurangi kebutuhan memori dan komputasi.
Arsitektur Infinity terutama terdiri dari tiga bagian: penanda terkuantisasi multi-skala tingkat bit yang mengubah fitur gambar menjadi tag biner untuk overhead komputasi; model autoregresif berbasis transformator yang memprediksi residu berdasarkan isyarat tekstual dan perbedaan keluaran sebelumnya; mekanisme koreksi mandiri yang memperkenalkan pembalikan bit acak selama proses pelatihan untuk meningkatkan ketahanan model terhadap kesalahan. Tim peneliti menggunakan kumpulan data besar seperti LAION dan OpenImages untuk pelatihan, dan membuat kemajuan signifikan dengan secara bertahap meningkatkan resolusi gambar dari 256×256 menjadi 1024×102.
Setelah evaluasi, Infinity menunjukkan kinerja luar biasa pada indikator-indikator utama, dengan skor GenEval sebesar 0. dan Fréchet Inception Distance (FID) dikurangi menjadi 3,48, yang menunjukkan peningkatan dalam kecepatan dan kualitas pembangkitan. Infinity dapat menghasilkan gambar resolusi tinggi 1024×1024 dalam 0,8 detik, menunjukkan efisiensi dan keandalannya. Gambar yang dihasilkan oleh sistem tidak hanya realistis secara visual dan kaya akan detail, namun juga merespons instruksi teks kompleks secara akurat, sehingga menghasilkan skor preferensi manusia yang tinggi.
Peluncuran Infinity menandai tolok ukur baru dalam sintesis teks-ke-gambar resolusi tinggi, mendorong pengembangan lebih lanjut AI generatif dengan memecahkan masalah skalabilitas dan kualitas detail yang sudah lama ada dengan desain inovatif.
Makalah: https://arxiv.org/abs/2412.04431
Menyorot:
? **Kerangka Kerja Inovatif Infinity:** Kerangka kerja Infinity yang diluncurkan oleh Bytedance sangat meningkatkan efisiensi pembuatan gambar resolusi tinggi melalui tokenisasi tingkat bit dan pengklasifikasian kosakata tanpa batas.
⚡ **Performa luar biasa:** Infinity melampaui model yang ada dalam indikator evaluasi utama dan dapat menghasilkan gambar berkualitas tinggi 1024×1024 dalam 0,8 detik.
?️ ** Detail dan daya tanggap autentik: ** Gambar yang dihasilkan tidak hanya realistis secara visual, tetapi juga merespons perintah teks kompleks secara akurat, menunjukkan skor preferensi manusia yang tinggi.
Secara keseluruhan, kerangka kerja Infinity memberikan solusi yang efisien dan berkualitas tinggi untuk pembuatan teks-ke-gambar resolusi tinggi, mencapai terobosan signifikan dalam kecepatan, kualitas gambar, dan respons terhadap instruksi teks yang kompleks, menyediakan platform yang kuat untuk pengembangan generatif AI telah menetapkan tonggak sejarah baru.