Tim teknologi komersialisasi ByteDance telah membuat model grafik Vincent Infinity yang dikembangkan secara open source. Model ini telah membuat terobosan signifikan dalam kualitas pembuatan gambar dan kecepatan inferensi, melampaui banyak model industri terkemuka, seperti Stable Diffusion 3 dan HART, LlamaGen dkk. Inovasi inti model Infinity terletak pada kerangka autoregresif Bitwise Token yang unik dan kosakata tak terbatas, yang memungkinkan model menangkap detail gambar yang lebih halus dan sangat meningkatkan kualitas dan kinerja batas atas gambar yang dihasilkan. Artikel ini akan memperkenalkan secara detail detail teknis, kinerja, dan situasi open source model Infinity.
Di bidang kecerdasan buatan, model Infinity, pencapaian terbaru tim teknologi komersialisasi ByteDance, telah menjadi raja baru di bidang grafik Vinsensian autoregresif dengan kinerja luar biasa dan teknologi inovatif. Model open source baru ini tidak hanya melampaui Stable Diffusion3 dalam kualitas pembuatan gambar, namun juga menunjukkan keunggulan signifikan dalam kecepatan inferensi.
Inovasi inti model Infinity adalah penerapan kerangka kerja autoregresif Bitwise Token. Kerangka kerja ini secara signifikan meningkatkan kemampuan model untuk mendeteksi sinyal frekuensi tinggi dengan memprediksi "Bitwise Token" terperinci yang terdiri dari +1 atau -1 pada sinyal berikutnya. tingkat kemampuan menangkap, sehingga menghasilkan gambar yang lebih detail. Selain itu, model Infinity memperluas kosakata hingga tak terbatas, sangat meningkatkan ruang representasi tokenizer Gambar dan meningkatkan kinerja batas atas venogram autoregresif.
Dalam perbandingan performa, model Infinity memiliki performa yang luar biasa di antara metode autoregresif, jauh melampaui HART, LlamaGen, Emu3, dan metode lainnya, serta mengalahkan model HART dalam evaluasi manusia dengan tingkat kemenangan hampir 90%. Pada saat yang sama, Infinity juga mengalahkan model difusi SOTA seperti PixArt-Sigma, SD-XL, SD3-Meidum, dll. dengan tingkat kemenangan 75%, 80%, dan 65%, membuktikan keunggulannya di antara model-model dengan ukuran yang sama. .
Fitur utama lainnya dari model Infinity adalah karakteristik penskalaannya yang baik. Seiring bertambahnya ukuran model dan sumber daya pelatihan yang diinvestasikan, kerugian set validasi terus menurun dan akurasi set validasi terus meningkat. Selain itu, Infinity juga mengusulkan teknologi koreksi mandiri bit, yang meningkatkan kemampuan koreksi mandiri model dan mengurangi masalah kesalahan kumulatif selama penalaran autoregresif.
Dalam hal kecepatan inferensi, Infinity mewarisi keunggulan kecepatan VAR. Model 2B hanya membutuhkan waktu 0,8 detik untuk menghasilkan gambar 1024x1024, yang 3 kali lebih cepat dibandingkan SD3-Medium dengan ukuran yang sama dan 14 kali lebih cepat dibandingkan 12B Flux Dev . Model 8B 7 kali lebih cepat dibandingkan SD3.5 dengan ukuran yang sama. Model 20B membutuhkan waktu 3 detik untuk menghasilkan gambar 1024x1024, yang hampir 4 kali lebih cepat dibandingkan Flux Dev 12B.
Saat ini, kode pelatihan dan inferensi, demo, dan bobot model model Infinity telah diluncurkan di gudang GitHub, dan pengalaman situs web juga disediakan untuk memfasilitasi pengguna mencoba dan mengevaluasi efek model.
Halaman proyek: https://foundationvision.github.io/infinity.project/
Secara keseluruhan, model Infinity telah membawa terobosan baru ke bidang grafik Vinsensian autoregresif dengan arsitektur teknisnya yang canggih, kinerja luar biasa, dan metode sumber terbuka yang mudah digunakan, yang patut mendapat perhatian dan penelitian lebih lanjut. Kecepatan inferensi yang efisien dan kemampuan menghasilkan gambar berkualitas tinggi memberikan potensi besar dalam aplikasi praktis.