Kerangka kerja pembuatan video potret EMO yang diluncurkan oleh tim Alibaba merupakan terobosan besar dalam bidang pembuatan konten digital. Ini dapat menghasilkan video realistis yang berisi ekspresi wajah dan gerakan kepala yang kaya berdasarkan gambar dan audio referensi, yang secara teknis mencapai perpaduan sempurna antara suara, gambar, dan gerakan. EMO menggunakan model terlatih dan teknologi pemrosesan noise multi-frame untuk meningkatkan ekspresi dan realisme video yang dihasilkan secara signifikan, melampaui teknologi serupa yang sudah ada. Terobosan teknologi ini akan berdampak besar pada media digital dan industri konten virtual.
Tim Alibaba merilis kerangka pembuatan video potret EMO, yang mampu menghasilkan video potret suara dengan ekspresi wajah dan pose kepala yang kaya. EMO menggunakan jaringan referensi untuk mengekstrak fitur dari gambar referensi dan bingkai tindakan, memproses dan menyematkan suara melalui encoder audio yang telah dilatih sebelumnya, dan menggabungkan noise multi-frame dan masker wilayah wajah untuk menghasilkan video. Hasil eksperimen menunjukkan bahwa EMO mengungguli metode yang ada dalam hal ekspresi dan realisme. Potensi arah penerapan model ini akan meningkatkan tingkat teknis media digital dan pembuatan konten virtual, namun juga dapat digunakan sebagai alat kriminal.Munculnya kerangka kerja EMO tidak diragukan lagi akan mendorong pembuatan konten digital ke tingkat yang lebih tinggi, namun kita juga perlu waspada terhadap potensi risiko penyalahgunaannya. Norma etika dan langkah-langkah peraturan yang relevan diperlukan untuk memandu perkembangannya yang sehat dan memastikan keamanan dan keandalan dari aplikasinya. Kemajuan teknologi harus selalu berorientasi pada masyarakat dan memberikan kontribusi positif terhadap pembangunan sosial.