Modelnya juga boneka bersarang? Apple open source model pembuatan gambar baru ml-mdm

Penulis：Eve Cole Waktu Pembaruan：2024-12-06 20:00:02

Apple baru-baru ini merilis metode pembuatan gambar dan video baru yang disebut Matryoshka Diffusion Models (MDM). Teknologi terobosan ini secara jelas disebut "Model Difusi Matryoshka". Intinya terletak pada penyatuan struktur kecil di dalam struktur besar Boneka matryoshka Rusia. Editor Downcodes akan memberi Anda pemahaman mendalam tentang inovasi teknologi ini dan dampak revolusionernya di bidang pembuatan gambar AI.

Baru-baru ini, raksasa teknologi Apple kembali menunjukkan kemampuan inovasi teknologinya yang kuat dan meluncurkan metode pembuatan gambar dan video baru yang disebut Matryoshka Diffusion Models (MDM).

Nama MDM berasal dari boneka matryoshka Rusia. Nama cerdas ini tidak hanya penuh kesenangan, tetapi juga mencerminkan konsep teknis intinya - menyusun struktur kecil di dalam struktur besar. Sama seperti setiap boneka bersarang menyembunyikan boneka bersarang yang lebih kecil namun sama halusnya, MDM mampu memproses gambar pada resolusi berbeda secara bersamaan, menghasilkan pembuatan yang mulus dari sketsa definisi rendah hingga detail definisi tinggi.

Keunggulan pendekatan inovatif ini terletak pada kemampuannya menangani pemrosesan gambar secara bersamaan pada berbagai resolusi. Bayangkan ada sekelompok pelukis berketerampilan tinggi, masing-masing memusatkan perhatian pada area kanvas yang berbeda, namun bekerja sama untuk menciptakan sebuah karya seni yang indah. MDM menggunakan teknologi denoising gabungan pada berbagai resolusi untuk membuat gambar yang dihasilkan lebih kaya detail dan lebih realistis, sehingga sangat meningkatkan kualitas gambar secara keseluruhan.

Arsitektur inti MDM disebut NestedUNet, dan konsep desain ini semakin memperkuat konsep boneka bersarang. Dalam arsitektur ini, setiap tingkat berisi substruktur yang lebih kecil namun berfungsi penuh, sama seperti setiap boneka matryoshka yang independen dan lengkap. Desain unik ini memungkinkan MDM memanfaatkan sepenuhnya fitur dan parameter tingkat tinggi saat memproses input skala kecil, sehingga mencapai proses pembelajaran dan pembangkitan yang lebih efisien.

Saat ini, model pembuatan gambar dan video berkualitas tinggi umumnya menghadapi tantangan komputasi dan pengoptimalan yang besar. Metode tradisional menghasilkan secara bertahap pada tingkat piksel atau terlebih dahulu melatih model gambar terkompresi dan kemudian memprosesnya pada gambar beresolusi rendah. Proses latihan MDM lebih seperti mengajarkan anak belajar berjalan selangkah demi selangkah, mulai dari balita hingga langkah terbang. Ini menggunakan metode pelatihan progresif, dimulai dari resolusi rendah dan secara bertahap beralih ke resolusi tinggi. Metode ini membuat model lebih stabil dan efisien saat menghadapi gambar baru beresolusi tinggi.

Tim peneliti Apple sepenuhnya menunjukkan kehebatan MDM melalui serangkaian uji benchmark. MDM telah menunjukkan kinerja luar biasa baik dalam pembuatan gambar bersyarat kelas atau aplikasi konversi teks-ke-gambar dan teks-ke-video. Perlu disebutkan secara khusus bahwa meskipun dilatih pada kumpulan data CC12M yang hanya berukuran 12 juta piksel, MDM menunjukkan kemampuan generalisasi zero-shot yang luar biasa, yang berarti dapat bekerja dengan baik dalam pemandangan yang tidak terlihat.

Hasil penelitian menunjukkan bahwa MDM mampu menghasilkan gambar dengan resolusi hingga 1024x1024 piksel, bahkan dalam kondisi data yang relatif terbatas, MDM dapat menjalankan tugasnya dengan baik dan menghasilkan gambar berkualitas tinggi yang memenuhi persyaratan. Fitur ini sangat memperluas cakupan penerapan teknologi pembuatan gambar AI dan menghadirkan kemungkinan-kemungkinan baru bagi industri kreatif, industri desain, dan bidang lainnya.

Meskipun MDM telah mencapai hasil yang mengesankan dalam bidang pembuatan gambar dan video, ini mungkin hanya puncak gunung es. MDM ke depan diharapkan menjadi lebih cerdas, mampu memahami informasi kontekstual yang lebih kompleks, serta menghasilkan konten yang lebih realistis dan beragam. Kita dapat berharap bahwa teknologi ini akan memainkan peran penting dalam banyak bidang seperti virtual reality, augmented reality, produksi film, pengembangan game, dll.

Teknologi model difusi matryoshka yang diluncurkan oleh Apple tidak diragukan lagi membawa tren teknologi segar di bidang pembuatan gambar AI. Hal ini tidak hanya meningkatkan efisiensi dan kualitas pembuatan gambar, namun juga menunjukkan arah baru bagi perkembangan seluruh industri. Dengan kemajuan teknologi yang berkelanjutan dan pendalaman penerapannya, kami mempunyai alasan untuk percaya bahwa MDM akan memainkan peran yang semakin penting dalam dunia kreatif digital masa depan, memberikan kita pengalaman visual yang lebih menakjubkan.

Halaman proyek: https://top.aibase.com/tool/ml-mdm

Makalah: https://arxiv.org/pdf/2310.15111

Secara keseluruhan, Model Difusi Matryoshka Apple menunjukkan potensi besar dari teknologi penghasil gambar AI. Kemampuannya dalam menghasilkan gambar yang efisien dan berkualitas tinggi serta kemampuan generalisasi tanpa sampel yang luar biasa menghadirkan kemungkinan tak terbatas bagi perkembangan industri kreatif digital di masa depan. Mari kita tunggu dan lihat bagaimana teknologi ini akan semakin merevolusi pengalaman visual kita.