เมื่อเร็วๆ นี้ ทีมของ Li Feifei ได้เปิดตัวผลการวิจัยที่ก้าวล้ำ นั่นคือ โมเดลหลายรูปแบบใหม่ที่สามารถเข้าใจและสร้างการกระทำของมนุษย์ได้ และผสมผสานโมเดลภาษาอย่างชาญฉลาดเพื่อให้เกิดการประมวลผลภาษาวาจาและอวัจนภาษาแบบครบวงจร นวัตกรรมนี้ไม่เพียงแต่ช่วยให้เครื่องจักรเข้าใจคำสั่งของมนุษย์เท่านั้น แต่ยังตีความอารมณ์เบื้องหลังการกระทำด้วย จึงบรรลุปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์ที่เป็นธรรมชาติและราบรื่นยิ่งขึ้น แกนหลักของโมเดลอยู่ในกรอบงานโมเดลภาษาแบบหลายโมดัล ซึ่งสามารถรวมอินพุตหลายรายการ เช่น เสียง การเคลื่อนไหว และข้อความ และเอาต์พุตข้อมูลโมดอลที่สอดคล้องกัน โดยทำงานได้ดีกับงานต่างๆ เช่น การสร้างท่าทางคำพูดร่วมกัน ลดปริมาณข้อมูลที่ต้องใช้สำหรับการฝึกโมเดลลงอย่างมาก และขยายสถานการณ์การใช้งานใหม่ๆ เช่น การสร้างท่าทางที่แก้ไขได้และการทำนายอารมณ์ผ่านการกระทำ
ทีมงานของ Li Feifei ได้เปิดตัวโมเดลหลายรูปแบบใหม่ที่สามารถเข้าใจและสร้างการกระทำของมนุษย์ได้ และเมื่อรวมโมเดลภาษาเข้าด้วยกัน ก็ทำให้เกิดการประมวลผลภาษาวาจาและอวัจนภาษาแบบครบวงจร การวิจัยที่ก้าวล้ำนี้ช่วยให้เครื่องจักรไม่เพียงแต่เข้าใจคำสั่งของมนุษย์เท่านั้น แต่ยังอ่านอารมณ์ที่มีอยู่ในการกระทำ ทำให้มีปฏิสัมพันธ์ระหว่างมนุษย์กับคอมพิวเตอร์อย่างเป็นธรรมชาติมากขึ้น
แกนหลักของโมเดลอยู่ในกรอบงานโมเดลภาษาแบบหลายโมดัล ซึ่งสามารถรับอินพุตได้หลายรูปแบบ เช่น เสียง การเคลื่อนไหว และข้อความ และเอาท์พุตข้อมูลโมดอลที่ต้องการ เมื่อผสมผสานกับกลยุทธ์ก่อนการฝึกอบรมเชิงสร้างสรรค์ โมเดลนี้จะแสดงประสิทธิภาพที่ยอดเยี่ยมในงานต่างๆ มากมาย ตัวอย่างเช่น ในการสร้างท่าทางคำพูดการทำงานร่วมกัน โมเดลไม่เพียงแต่เหนือกว่าความทันสมัยเท่านั้น แต่ยังช่วยลดปริมาณข้อมูลที่ต้องใช้สำหรับการฝึกอบรมลงอย่างมากอีกด้วย นอกจากนี้ โมเดลยังปลดล็อกสถานการณ์การใช้งานใหม่ๆ เช่น การสร้างท่าทางที่แก้ไขได้ และการทำนายอารมณ์ผ่านการกระทำ
การสื่อสารของมนุษย์มีลักษณะเป็นหลายรูปแบบ และรวมถึงการชี้นำทางวาจาและอวัจนภาษา เช่น คำพูด การแสดงออกทางสีหน้า และท่าทางทางร่างกาย ความสามารถของโมเดลนี้ในการทำความเข้าใจพฤติกรรมต่อเนื่องหลายรูปแบบเหล่านี้มีความสำคัญอย่างยิ่งต่อการสร้างตัวละครเสมือนที่สื่อสารอย่างเป็นธรรมชาติในแอปพลิเคชัน เช่น เกม ภาพยนตร์ และความเป็นจริงเสมือน อย่างไรก็ตาม โมเดลการสร้างการกระทำที่มีอยู่มักถูกจำกัดอยู่เพียงรูปแบบการป้อนข้อมูลเฉพาะ (คำพูด ข้อความ หรือข้อมูลการกระทำ) และไม่สามารถใช้ประโยชน์จากความหลากหลายของข้อมูลที่มีอยู่ได้อย่างเต็มที่
โมเดลนี้ใช้โมเดลภาษาเพื่อรวมภาษาวาจาและอวัจนภาษาเข้าด้วยกันด้วยเหตุผลหลักสามประการ:
โมเดลภาษาเชื่อมโยงรูปแบบต่างๆ เข้าด้วยกันโดยธรรมชาติ
คำพูดมีความหมายสูงและงานต่างๆ เช่น การสร้างแบบจำลองการตอบสนองต่อเรื่องตลก จำเป็นต้องมีความสามารถในการให้เหตุผลเชิงความหมายที่แข็งแกร่ง
โมเดลภาษาได้รับความสามารถในการทำความเข้าใจความหมายที่แข็งแกร่งผ่านการฝึกอบรมล่วงหน้าที่ครอบคลุม
เพื่อให้บรรลุเป้าหมายนี้ ทีมวิจัยได้แบ่งร่างกายออกเป็นส่วนต่างๆ ก่อน (ใบหน้า มือ ลำตัวส่วนบน ส่วนล่าง) และติดป้ายกำกับแต่ละส่วนแยกกันสำหรับการเคลื่อนไหว เมื่อรวมโทเค็นข้อความและคำพูดเข้าด้วยกัน การป้อนข้อมูลในรูปแบบใดๆ ก็สามารถแสดงเป็นชุดโทเค็นสำหรับใช้กับโมเดลภาษาได้ โมเดลนี้ใช้กระบวนการฝึกอบรมสองขั้นตอน: การฝึกล่วงหน้าครั้งแรกเพื่อให้เกิดการจัดตำแหน่งรูปแบบต่างๆ ด้วยการเคลื่อนไหวร่างกายที่ผสมผสานกัน รวมถึงการจัดตำแหน่งเสียงและข้อความ หลังจากนั้น งานดาวน์สตรีมจะถูกแปลงเป็นคำสั่ง และโมเดลจะได้รับการฝึกตามคำแนะนำเหล่านี้ เพื่อให้สามารถปฏิบัติตามคำสั่งงานต่างๆ ได้
โมเดลดังกล่าวทำงานได้ดีบนเกณฑ์มาตรฐานการสร้างท่าทางคำพูดการทำงานร่วมกันของ BEATv2 ซึ่งเหนือกว่ารุ่นที่มีอยู่มาก ผลกระทบของกลยุทธ์ก่อนการฝึกอบรมยังได้รับการตรวจสอบ โดยเฉพาะอย่างยิ่งเมื่อมีข้อมูลไม่เพียงพอ ซึ่งแสดงให้เห็นถึงความสามารถในการสรุปข้อมูลทั่วไปที่แข็งแกร่ง ด้วยการฝึกอบรมหลังการฝึกอบรมเกี่ยวกับงานคำพูดและการกระทำด้วยข้อความ โมเดลไม่เพียงแต่สามารถติดตามเสียงและข้อความแจ้งเตือนเท่านั้น แต่ยังบรรลุฟังก์ชันใหม่ๆ เช่น การทำนายอารมณ์จากข้อมูลการกระทำอีกด้วย
ในรายละเอียดทางเทคนิค โมเดลนี้ใช้โทเค็นไนเซอร์เฉพาะรูปแบบเพื่อจัดการกับรูปแบบอินพุตต่างๆ โดยเฉพาะอย่างยิ่ง โมเดลจะฝึกการเคลื่อนไหวร่างกายแบบผสมผสาน VQ-VAE ซึ่งจะแปลงการเคลื่อนไหวของใบหน้า มือ ร่างกายส่วนบน และร่างกายส่วนล่างให้เป็นเครื่องหมายแยกกัน คำศัพท์เฉพาะรูปแบบเหล่านี้ (เสียงและข้อความ) จะรวมกันเป็นคำศัพท์หลายรูปแบบที่รวมเป็นหนึ่งเดียว ในระหว่างการฝึก โทเค็นแบบผสมของรูปแบบที่แตกต่างกันจะถูกนำมาใช้เป็นอินพุต และเอาต์พุตจะถูกสร้างขึ้นโดยโมเดลภาษาตัวเข้ารหัส-ตัวถอดรหัส
โมเดลยังใช้คำศัพท์หลายรูปแบบเพื่อแปลงข้อมูลโมดอลต่างๆ ให้อยู่ในรูปแบบเดียวสำหรับการประมวลผล ในขั้นตอนก่อนการฝึกอบรม แบบจำลองจะเรียนรู้ความสอดคล้องระหว่างรูปแบบต่างๆ โดยดำเนินการงานการแปลงระหว่างรูปแบบต่างๆ ตัวอย่างเช่น โมเดลสามารถเรียนรู้ที่จะแปลการเคลื่อนไหวของร่างกายส่วนบนเป็นการเคลื่อนไหวของร่างกายส่วนล่าง หรือแปลงเสียงเป็นข้อความ นอกจากนี้ โมเดลยังเรียนรู้วิวัฒนาการชั่วคราวของการกระทำโดยการสุ่มปิดบังเฟรมการกระทำบางอย่าง
ในขั้นตอนหลังการฝึกอบรม โมเดลจะได้รับการปรับแต่งอย่างละเอียดโดยใช้ข้อมูลที่จับคู่เพื่อดำเนินงานขั้นปลาย เช่น การสร้างท่าทางคำพูดสำหรับการทำงานร่วมกัน หรือการสร้างข้อความเป็นการกระทำ เพื่อให้แบบจำลองเป็นไปตามคำสั่งตามธรรมชาติของมนุษย์ นักวิจัยได้สร้างคำสั่งแบบหลายงานตามเทมเพลตที่แปลงงานต่างๆ เช่น เสียงเป็นการกระทำ ข้อความเป็นการกระทำ และอารมณ์เป็นการกระทำ เป็นคำสั่ง โมเดลนี้ยังมีความสามารถในการแก้ไขท่าทางเพื่อสร้างการเคลื่อนไหวทั้งร่างกายที่ประสานกันโดยอิงตามข้อความและเสียง
สุดท้าย โมเดลยังปลดล็อกความสามารถใหม่ๆ ในการทำนายอารมณ์จากการกระทำ สิ่งนี้มีนัยสำคัญต่อสาขาต่างๆ เช่น สุขภาพจิตหรือจิตเวช โมเดลนี้สามารถทำนายอารมณ์ที่แสดงออกในการกระทำได้แม่นยำกว่ารุ่นอื่นๆ ซึ่งแสดงให้เห็นถึงความสามารถในการเข้าใจภาษากายที่แข็งแกร่ง
การวิจัยแสดงให้เห็นว่าการรวมภาษาวาจาและไม่ใช่คำพูดของการกระทำของมนุษย์เป็นสิ่งสำคัญสำหรับการใช้งานจริง และแบบจำลองภาษาก็เป็นกรอบการทำงานที่มีประสิทธิภาพสำหรับสิ่งนี้
ที่อยู่กระดาษ: https://arxiv.org/pdf/2412.10523v1
โดยรวมแล้ว งานวิจัยนี้ได้นำความก้าวหน้าที่สำคัญมาสู่สาขาปัญญาประดิษฐ์หลายรูปแบบ ศักยภาพในการประยุกต์ใช้ในการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์ การสร้างตัวละครเสมือน และการจดจำอารมณ์นั้นมีความสำคัญมากและสมควรได้รับความสนใจและการวิจัยเพิ่มเติม ในอนาคตโมเดลนี้คาดว่าจะมีบทบาทในสาขาต่างๆ มากขึ้น และส่งเสริมการพัฒนาเทคโนโลยีปัญญาประดิษฐ์