Dalam beberapa tahun terakhir, teknologi avatar virtual AI telah berkembang pesat, namun interaktivitasnya masih menjadi hambatan utama yang membatasi penerapannya. Banyak avatar virtual AI berperilaku kaku dalam percakapan, kurang realisme, dan tidak dapat mencapai interaksi alami dengan pengguna. Untuk tujuan ini, teknologi baru yang disebut INFP hadir untuk memecahkan masalah kurangnya interaksi antara avatar virtual AI dalam percakapan dua orang, memungkinkan karakter virtual untuk mengekspresikan emosi dan tindakan secara alami dan lancar seperti orang nyata selama percakapan. percakapan. Benar-benar mengubah pengalaman interaksi manusia-komputer.
Baru-baru ini, teknologi baru bernama INFP (Interactive, Natural, Flash, dan Person-generic) telah menarik perhatian luas. Teknologi ini bertujuan untuk memecahkan masalah kurangnya interaksi antara avatar virtual AI saat ini dalam percakapan dua orang, memungkinkan karakter virtual berinteraksi seperti orang nyata selama percakapan, secara dinamis menyesuaikan ekspresi dan gerakan mereka berdasarkan konten percakapan.
Ucapkan selamat tinggal pada "stand-up comedy" dan sambutlah "double chorus"
Di masa lalu, avatar AI hanya bisa berbicara kepada dirinya sendiri, seperti aktor "stand-up comedian", atau mereka hanya bisa mendengarkan dengan bodoh tanpa masukan apa pun, seperti "orang kayu". Namun, percakapan manusia kita tidak seperti ini! Saat kita berbicara, kita saling memandang, mengangguk, mengerutkan kening, dan bahkan bercanda dari waktu ke waktu.
Kemunculan INFP benar-benar mengubah situasi memalukan ini! Ini seperti konduktor "double chorus", yang secara dinamis dapat menyesuaikan ekspresi dan gerakan avatar AI berdasarkan audio percakapan antara Anda dan AI, membuat Anda merasa seperti Ini seperti berbicara dengan orang sungguhan!
“Rahasia unik” INFP: dua trik, satu sangat diperlukan!
Alasan mengapa INFP begitu kuat terutama karena dua “rahasia uniknya”:
Imitasi Kepala Berbasis Gerakan:
Pertama-tama ia akan mempelajari ekspresi dan gerakan manusia dari sejumlah besar video percakapan nyata, seperti "ahli peniruan tindakan", memampatkan perilaku kompleks ini menjadi "kode tindakan".
Agar gerakannya lebih realistis, ia juga akan memberikan perhatian khusus pada dua "ekspresi" mata dan mulut, seperti halnya memberi "close-up".
Ini juga akan menggunakan titik-titik kunci wajah untuk membantu menghasilkan ekspresi guna memastikan keakuratan dan kealamian gerakan.
Kemudian, ia menerapkan "kode tindakan" ini ke avatar statis, membuat avatar tersebut "hidup" secara instan, seperti sihir!
Generasi Gerakan Berpanduan Audio:
"Generator" ini bahkan lebih bertenaga, dapat memahami audio percakapan antara Anda dan AI, seperti seorang master yang dapat "mengidentifikasi lokasi dengan mendengarkan suaranya".
Ini akan menganalisis siapa yang berbicara dan siapa yang mendengarkan dalam audio, dan kemudian secara dinamis menyesuaikan status avatar AI sehingga dapat beralih dengan bebas antara "berbicara" dan "mendengarkan" tanpa harus berganti peran secara manual sama sekali.
Ia juga dilengkapi dengan dua "bank memori" yang menyimpan berbagai tindakan saat "berbicara" dan "mendengarkan", seperti dua "kotak harta karun" untuk mengekstrak tindakan yang paling tepat kapan saja.
Itu juga dapat mengatur mood dan sikap avatar AI sesuai dengan gaya suara Anda, membuat percakapan lebih hidup dan menarik.
Terakhir, ia juga menggunakan teknologi yang disebut "model difusi" untuk mengubah gerakan tersebut menjadi animasi yang halus dan natural sehingga Anda tidak merasakan adanya lag.
DyConv: Kumpulan data percakapan besar yang penuh dengan "gosip"!
Untuk melatih INFP, sang "super AI", para peneliti juga secara khusus mengumpulkan kumpulan data percakapan yang sangat besar yang disebut DyConv!
Ada lebih dari 200 jam video percakapan dalam kumpulan data ini. Orang-orang di dalamnya berasal dari seluruh dunia, dan konten percakapannya juga beragam.
Kualitas video kumpulan data DyConv sangat tinggi, memastikan wajah semua orang terlihat jelas.
Para peneliti juga menggunakan model pemisahan ucapan paling canggih untuk mengekstrak suara setiap orang secara terpisah guna memfasilitasi pembelajaran AI.
"Eighteen Martial Arts" INFP: Anda tidak hanya dapat berbicara, tetapi Anda juga dapat...
INFP tidak hanya dapat menunjukkan bakatnya dalam percakapan dua orang, tetapi juga bersinar dalam skenario lain:
Mode "Mendengarkan Generasi Kepala": Ia dapat membuat ekspresi dan tindakan yang sesuai berdasarkan apa yang dikatakan pihak lain, seperti siswa yang baik yang "mendengarkan dengan cermat".
Mode "Talking Head Generation": Dapat membuat avatar membuat bentuk mulut yang realistis berdasarkan audio, seperti master "ventriloquist".
Untuk membuktikan kekuatan INFP, para peneliti melakukan sejumlah besar eksperimen, dan hasilnya menunjukkan:
Dalam berbagai indikator, INFP telah mengalahkan metode serupa lainnya, seperti kualitas video, sinkronisasi bibir, dan keragaman tindakan, dan telah mencapai hasil yang sangat baik.
Dalam hal pengalaman pengguna, peserta juga setuju bahwa video yang dihasilkan oleh INFP lebih alami dan jelas, serta lebih cocok dengan audio.
Para peneliti juga melakukan eksperimen ablasi untuk membuktikan bahwa setiap modul di INFP sangatlah penting.
Alamat proyek: https://grisoon.github.io/INFP/
Terobosan dalam teknologi INFP telah membawa perubahan revolusioner pada pengalaman interaktif avatar virtual AI, menjadikannya lebih dekat dengan metode interaksi manusia nyata. Di masa depan, teknologi INFP diharapkan dapat digunakan secara luas di berbagai bidang seperti asisten virtual, pendidikan online, dan hiburan, memberikan pengalaman interaktif yang lebih alami, jelas, dan mendalam kepada pengguna.