ในช่วงไม่กี่ปีที่ผ่านมา เทคโนโลยีอวตารเสมือน AI ได้พัฒนาอย่างรวดเร็ว แต่ความสามารถในการโต้ตอบยังคงเป็นปัญหาคอขวดสำคัญที่จำกัดการใช้งาน อวาตาร์เสมือน AI จำนวนมากมีพฤติกรรมแข็งกร้าวในการสนทนา ขาดความสมจริง และไม่สามารถโต้ตอบกับผู้ใช้ได้อย่างเป็นธรรมชาติ ด้วยเหตุนี้ เทคโนโลยีใหม่ที่เรียกว่า INFP จึงเกิดขึ้น โดยมีจุดมุ่งหมายเพื่อแก้ไขปัญหาปัจจุบันของการโต้ตอบที่ไม่เพียงพอระหว่างอวตารเสมือนของ AI ในการสนทนาแบบสองคน ทำให้ตัวละครเสมือนสามารถแสดงอารมณ์และการกระทำได้อย่างเป็นธรรมชาติและราบรื่นเหมือนกับคนจริงในระหว่างนั้น การสนทนา เปลี่ยนประสบการณ์การโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์โดยสิ้นเชิง
เมื่อเร็ว ๆ นี้เทคโนโลยีใหม่ที่เรียกว่า INFP (Interactive, Natural, Flash และ Person-generic) ได้รับความสนใจอย่างกว้างขวาง เทคโนโลยีนี้มีจุดมุ่งหมายเพื่อแก้ปัญหาการโต้ตอบที่ไม่เพียงพอระหว่างอวตารเสมือน AI ในปัจจุบันในการสนทนาแบบสองคน ทำให้ตัวละครเสมือนโต้ตอบได้เหมือนคนจริงในระหว่างการสนทนา ปรับการแสดงออกและการเคลื่อนไหวแบบไดนามิกตามเนื้อหาการสนทนา
บอกลา "สแตนด์อัพคอมเมดี้" พร้อมต้อนรับ "ดับเบิ้ลคอรัส"
ในอดีต อวตารของ AI สามารถพูดคุยกับตัวเองได้เท่านั้น เช่น นักแสดง "นักแสดงตลก" หรือพวกเขาสามารถฟังอย่างโง่เขลาโดยไม่มีข้อเสนอแนะใดๆ เช่น "คนไม้" อย่างไรก็ตาม บทสนทนาของมนุษย์ไม่ใช่แบบนี้! เวลาคุยกัน เรามองหน้ากัน พยักหน้า ขมวดคิ้ว และแม้กระทั่งพูดตลกเป็นครั้งคราว นี่คือปฏิสัมพันธ์ที่แท้จริง!
การเกิดขึ้นของ INFP คือการเปลี่ยนแปลงสถานการณ์ที่น่าอับอายนี้โดยสิ้นเชิง! มันเหมือนกับวาทยากร "นักร้องประสานเสียงคู่" ซึ่งสามารถปรับการแสดงออกและการเคลื่อนไหวของอวาตาร์ AI แบบไดนามิกตามเสียงการสนทนาระหว่างคุณกับ AI ทำให้คุณรู้สึก เหมือนได้คุยกับคนจริง!
“ความลับที่ไม่ซ้ำใคร” ของ INFP: สองเทคนิค หนึ่งที่ขาดไม่ได้!
เหตุผลที่ INFP มีประสิทธิภาพมากนั้นส่วนใหญ่เป็นเพราะ "ความลับที่เป็นเอกลักษณ์" สองประการ:
การเลียนแบบศีรษะตามการเคลื่อนไหว:
อันดับแรกจะเรียนรู้การแสดงออกและการเคลื่อนไหวของมนุษย์จากวิดีโอการสนทนาจริงจำนวนมาก เช่น "การเลียนแบบการกระทำระดับปรมาจารย์" โดยบีบอัดพฤติกรรมที่ซับซ้อนเหล่านี้ให้เป็น "รหัสการกระทำ"
เพื่อให้การเคลื่อนไหวสมจริงยิ่งขึ้น กล้องจะให้ความสนใจเป็นพิเศษกับ "การแสดงออก" ของดวงตาและปากทั้งสองแบบ เช่นเดียวกับการ "ถ่ายภาพระยะใกล้"
นอกจากนี้ยังจะใช้จุดสำคัญของใบหน้าเพื่อช่วยในการสร้างการแสดงออกเพื่อให้มั่นใจถึงความแม่นยำและเป็นธรรมชาติของการเคลื่อนไหว
จากนั้นจะใช้ "รหัสการกระทำ" เหล่านี้กับอวาตาร์คงที่ ทำให้อวตาร "มีชีวิต" ทันทีราวกับเวทย์มนตร์!
การสร้างภาพเคลื่อนไหวด้วยเสียง:
"เครื่องกำเนิด" นี้มีพลังมากยิ่งขึ้น มันสามารถเข้าใจเสียงการสนทนาระหว่างคุณกับ AI ได้ เช่นเดียวกับผู้เชี่ยวชาญที่สามารถ "ระบุตำแหน่งโดยการฟังเสียง"
โดยจะวิเคราะห์ว่าใครกำลังพูดและใครกำลังฟังเสียง จากนั้นจึงปรับสถานะของอวตาร AI แบบไดนามิกเพื่อให้สามารถสลับระหว่าง "การพูด" และ "การฟัง" ได้อย่างอิสระโดยไม่ต้องสลับบทบาทด้วยตนเองเลย
นอกจากนี้ ยังมาพร้อมกับ "ธนาคารหน่วยความจำ" สองแห่งที่เก็บการกระทำต่างๆ เมื่อ "พูด" และ "ฟัง" ตามลำดับ เช่นเดียวกับ "กล่องสมบัติ" สองกล่องที่จะดึงการกระทำที่เหมาะสมที่สุดออกมาได้ตลอดเวลา
นอกจากนี้ยังสามารถปรับอารมณ์และทัศนคติของอวตาร AI ตามสไตล์เสียงของคุณทำให้การสนทนามีชีวิตชีวาและน่าสนใจยิ่งขึ้น
สุดท้ายนี้ยังใช้เทคโนโลยีที่เรียกว่า "แบบจำลองการแพร่กระจาย" เพื่อเปลี่ยนการเคลื่อนไหวเหล่านี้ให้เป็นภาพเคลื่อนไหวที่ราบรื่นและเป็นธรรมชาติ เพื่อให้คุณไม่รู้สึกล่าช้า
DyConv: ชุดข้อมูลการสนทนาขนาดใหญ่ที่เต็มไปด้วย "ซุบซิบ"!
เพื่อฝึก INFP หรือ "super AI" นักวิจัยยังได้รวบรวมข้อมูลการสนทนาขนาดใหญ่ที่เรียกว่า DyConv!
มีวิดีโอการสนทนามากกว่า 200 ชั่วโมงในชุดข้อมูลนี้ ผู้คนในชุดข้อมูลนี้มาจากทั่วทุกมุมโลก และเนื้อหาของการสนทนาก็มีความหลากหลายเช่นกัน มันเป็นเพียง "ค่ายกักกันการนินทา"
คุณภาพวิดีโอของชุดข้อมูล DyConv สูงมาก ทำให้มั่นใจได้ว่าใบหน้าของทุกคนจะมองเห็นได้ชัดเจน
นอกจากนี้ นักวิจัยยังใช้โมเดลการแยกคำพูดที่ทันสมัยที่สุดเพื่อแยกเสียงของแต่ละคนแยกจากกัน เพื่ออำนวยความสะดวกในการเรียนรู้ AI
"สิบแปดศิลปะการต่อสู้" ของ INFP: ไม่เพียงแต่คุณสามารถพูดได้ แต่คุณยังสามารถ...
INFP ไม่เพียงแต่สามารถแสดงความสามารถของตนในการสนทนาสองคนเท่านั้น แต่ยังโดดเด่นในสถานการณ์อื่นๆ ด้วย:
โหมด "Listening Head Generation": สามารถสร้างการแสดงออกและการกระทำที่สอดคล้องกันตามสิ่งที่อีกฝ่ายพูด เช่นเดียวกับนักเรียนที่ดีที่ "ตั้งใจฟัง"
โหมด "Talking Head Generation": สามารถทำให้อวตารสร้างรูปปากที่สมจริงตามเสียงได้ เช่นเดียวกับปรมาจารย์ "นักพากย์เสียง"
เพื่อพิสูจน์พลังของ INFP นักวิจัยได้ทำการทดลองจำนวนมาก และผลลัพธ์แสดงให้เห็นว่า:
ในตัวชี้วัดต่างๆ INFP ได้บดขยี้วิธีการอื่นๆ ที่คล้ายกัน เช่น คุณภาพวิดีโอ การซิงโครไนซ์ลิป และความหลากหลายของการกระทำ และได้ผลลัพธ์ที่ยอดเยี่ยม
ในแง่ของประสบการณ์ผู้ใช้ ผู้เข้าร่วมยังเห็นพ้องกันว่าวิดีโอที่สร้างโดย INFP นั้นเป็นธรรมชาติและสดใสกว่า และเข้ากับเสียงได้ดีกว่า
นักวิจัยยังได้ทำการทดลองระเหยเพื่อพิสูจน์ว่าทุกโมดูลใน INFP มีความสำคัญ
ที่อยู่โครงการ: https://grisoon.github.io/INFP/
ความก้าวหน้าของเทคโนโลยี INFP ได้นำการเปลี่ยนแปลงครั้งยิ่งใหญ่มาสู่ประสบการณ์การโต้ตอบของอวตารเสมือน AI ทำให้เข้าใกล้วิธีการโต้ตอบของมนุษย์จริงมากขึ้น ในอนาคต เทคโนโลยี INFP คาดว่าจะถูกนำมาใช้กันอย่างแพร่หลายในหลายสาขา เช่น ผู้ช่วยเสมือน การศึกษาออนไลน์ และความบันเทิง ทำให้ผู้ใช้ได้รับประสบการณ์โต้ตอบที่เป็นธรรมชาติ สดใส และดื่มด่ำมากขึ้น