Media2Face adalah terobosan model pembuatan animasi wajah 3D multi-modal yang dapat menghasilkan animasi ekspresi wajah realistis berdasarkan input multi-modal seperti ucapan. Model ini membangun kumpulan data berskala besar bernama M2F-D dengan memperkenalkan Generalized Neural Parameterized Facial Assets (GNPFA) dan menggunakannya untuk mengekstrak informasi ekspresi dan pose kepala berkualitas tinggi dari data video yang sangat besar. Terakhir, tim peneliti mengusulkan model difusi Media2Face berdasarkan ruang laten GNPFA, yang menghasilkan generasi animasi wajah bahasa bersama berkualitas tinggi dan mencapai tingkatan baru dalam hal fidelitas dan ekspresi. Hal ini memungkinkan pengguna untuk mempersonalisasi animasi yang dihasilkan, seperti menyesuaikan kemarahan, kebahagiaan, dan ekspresi emosional lainnya.
Media2Face adalah model produk yang mendukung suara dan panduan multi-modal lainnya untuk menghasilkan ekspresi dinamis wajah 3D. Dengan melakukan penyesuaian personal yang lebih detail pada animasi wajah yang dihasilkan, ini juga memungkinkan pengguna untuk melakukan penyesuaian personal yang lebih detail pada animasi wajah yang dihasilkan, seperti kemarahan, kebahagiaan, dll. Tim peneliti menanggapi tantangan ini melalui tiga langkah utama, pertama memperkenalkan aset wajah berparameter saraf umum, kemudian menggunakan GNPFA untuk mengekstrak ekspresi berkualitas tinggi dan pose kepala akurat dari sejumlah besar video untuk membentuk kumpulan data M2F-D, dan akhirnya mengusulkan Media2Face, model difusi berbasis ruang laten GNPFA untuk pembuatan animasi wajah bahasa bersama. Secara keseluruhan, Media2Face telah mencapai hasil yang mengesankan di bidang animasi wajah bahasa bersama, membuka kemungkinan baru bagi ketelitian dan ekspresi sintesis animasi wajah.Kemunculan model Media2Face telah membawa terobosan teknologi baru di bidang produksi animasi 3D, realitas virtual, dan interaksi manusia-komputer. Kemampuan generasinya yang efisien dan opsi penyesuaian yang sangat personal menandai hadirnya masa depan yang lebih realistis dan ekspresif . Teknologi ini memiliki skenario penerapan yang luas di masa depan dan patut mendapat perhatian terus-menerus dalam pengembangannya.