震驚！你的AI聊天對象竟然偷偷學會了「讀心術」！ —— INFP帶你解鎖雙人對話新姿勢

作者：Eve Cole 更新時間：2024-12-26 18:32:01

近年來，AI虛擬頭像技術發展迅速，但其互動性仍是限制其應用的關鍵瓶頸。許多AI虛擬頭像在對話中表現生硬，缺乏真實感，無法實現與使用者的自然互動。為此，一項名為INFP的新技術應運而生，它旨在解決當前AI虛擬頭像在雙人對話中互動不足的問題，讓虛擬人物在對話過程中像真人一樣自然流暢地表達情感和動作，徹底改變人機互動體驗。

近日，一項名為INFP（Interactive， Natural， Flash and Person-generic）的新技術引起了廣泛關注。這項技術旨在解決當前AI虛擬頭像在雙人對話中存在的互動不足問題，讓虛擬人物在對話時能像真人一樣，根據對話內容動態調整表情和動作。

告別“單口相聲”，迎接“雙人合唱”

以前的AI頭像，要嘛只能自說自話，像個「單口相聲」演員，要嘛就是只會傻傻地聽著，沒有任何回饋，像個「木頭人」。但是，我們人類的對話可不是這樣的!我們說話的時候，眼睛會看著對方，還會不時點頭、皺眉，甚至插科打諢一下，這才是真正的互動啊!

而INFP的出現，就是要徹底改變這種尷尬的局面!它就像一個「雙人合唱」的指揮家，能根據你和AI的對話音頻，動態地調整AI頭像的表情和動作，讓你感覺就像在跟真人對話一樣!

INFP的「獨門秘籍」:兩大絕招，缺一不可!

INFP之所以這麼厲害，主要歸功於它的兩大「獨門秘籍」:

動作模仿大師（Motion-Based Head Imitation）:

它會先從大量的真實對話影片中學習人類的表情和動作，就像一個“動作模仿大師”，把這些複雜的行為壓縮成一個個“動作密碼”。

為了讓動作更真實，它還會特別關注眼睛和嘴巴這兩個“表情擔當”，就像給它們上了“特寫鏡頭”一樣。

它還會使用人臉關鍵點來輔助表情的生成，確保動作的準確性和自然性。

然後，它把這些「動作密碼」套用到一個靜態的頭像上，讓頭像瞬間「活」過來，簡直就像魔法一樣!

音訊驅動的動作產生器（Audio-Guided Motion Generation）:

這個「生成器」更厲害，它能聽懂你和AI的對話音頻，就像一個「聽聲辨位」的高手。

它會分析音訊中誰在說話、誰在聽，然後動態調整AI頭像的狀態，讓它在「說」與「聽」之間自由切換，完全不用手動切換角色。

它還配備了兩個“記憶庫”，分別儲存“說話”和“聽”時的各種動作，就像兩個“百寶箱”，隨時提取最合適的動作。

它還能根據你的聲音風格，調整AI頭像的情緒和態度，讓對話更生動有趣。

最後，它還會利用一種叫做「擴散模型」的技術，把這些動作變成平滑自然的動畫，讓你感覺不到任何卡頓。

DyConv:一個充滿「八卦」的超大對話資料集!

為了訓練INFP這個“超級AI”，研究人員也特意收集了一個超大規模的對話資料集，名叫DyConv!

這個資料集裡，有超過200小時的對話視頻，裡面的人來自五湖四海，聊的內容也是五花八門，簡直就是個「八卦集中營」。

DyConv資料集的影片品質非常高，確保每個人的臉都清晰可見。

研究人員也使用了最先進的語音分離模型，把每個人的聲音都單獨提取出來，方便AI學習。

INFP的「十八般武藝」:不只對話，還能...

INFP不僅能在雙人對話中大顯身手，還能在其他場景中發光發熱:

「聽話」模式（Listening Head Generation）:它可以根據對方的說話內容，做出相應的表情和動作，就像一個「認真聽講」的好學生。

「復讀機」模式（Talking Head Generation）:它可以根據音頻，讓頭像做出逼真的口型，就像一個「口技表演」大師。

為了證明INFP的強大，研究人員進行了大量的實驗，結果顯示:

在各種指標上，INFP都碾壓了其他同類方法，例如在視訊品質、唇音同步和動作多樣性等方面，都取得了非常優異的成績。

在使用者體驗方面，參與者也一致認為，INFP產生的影片更自然、生動，而且與音訊的匹配度更高。

研究人員也做了消融實驗，證明了INFP 中的每個模組都是必不可少的。

專案網址：https://grisoon.github.io/INFP/

INFP技術的突破，為AI虛擬頭像的互動體驗帶來了革命性的改變，使其更貼近真實的人類互動方式。未來，INFP技術可望在虛擬助理、線上教育、娛樂等許多領域中廣泛應用，為使用者帶來更自然、生動、沉浸式的互動體驗。