พัฒนาโดยมหาวิทยาลัยสแตนฟอร์ด! ลิปซิงค์รุ่น PROTEUS สามารถทำให้ภาพร้องเพลงได้

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-01 13:32:01

นักวิจัยจากมหาวิทยาลัยสแตนฟอร์ดได้ร่วมมือกับ Apparate Labs เพื่อเปิดตัวโมเดล AI ปฏิวัติวงการที่เรียกว่า PROTEUS โมเดลนี้สามารถสร้างตัวละครเสมือนจริงที่สมจริงและแสดงออกได้จากภาพถ่ายเพียงภาพเดียว และรองรับการร้องเพลงและการพูดแบบเรียลไทม์ เทคโนโลยีดังกล่าวประสบความสำเร็จในการสตรีมวิดีโอที่มีอัตราเฟรมสูงและการโต้ตอบหลายรูปแบบ PROTEUS ไม่ได้เป็นเพียงเครื่องมือสร้างตัวละครเสมือนจริงเท่านั้น แต่ยังเป็นแพลตฟอร์มที่ปรับแต่งได้สูงพร้อมโอกาสการใช้งานที่หลากหลาย ตั้งแต่ผู้ช่วยเสมือนส่วนบุคคลไปจนถึงความบันเทิงทางภาพยนตร์และโทรทัศน์ ต่อไป เราจะมีความเข้าใจเชิงลึกเกี่ยวกับคุณลักษณะ สถาปัตยกรรมทางเทคนิค และสถานการณ์การใช้งานที่เป็นไปได้ของ PROTEUS

ข่าวหน้าแรกของผู้ดูแลเว็บ (ChinaZ.com) เมื่อวันที่ 14 มิถุนายน: นักวิจัยจากมหาวิทยาลัยสแตนฟอร์ดและ Apparate Labs ร่วมกันเปิดตัวโมเดล AI ชื่อ PROTEUS ซึ่งสามารถสร้างตัวละครเสมือนจริงที่สมจริงและแสดงออกได้จากภาพถ่ายเพียงภาพเดียว และบรรลุการร้องเพลงและการพูดแบบเรียลไทม์

คุณสมบัติหลัก:

สร้างตัวละครที่สมจริงแบบเรียลไทม์: PROTEUS สามารถสร้างเสียงหัวเราะ การแร็พ ร้องเพลง การกะพริบตา การยิ้ม การพูดคุย และเอฟเฟกต์อื่น ๆ จากภาพเดียว โดยแสดงการแสดงออกทางสีหน้าและการเคลื่อนไหวร่างกายที่ซับซ้อน

การสตรีมวิดีโอที่มีอัตราเฟรมสูง: รองรับการสตรีมวิดีโอ 100+ FPS ช่วยให้สามารถประมวลผลแบบเรียลไทม์เพื่อให้มั่นใจว่ามีปฏิสัมพันธ์ที่ราบรื่นและเป็นธรรมชาติ

การโต้ตอบหลายรูปแบบ: เข้ากันได้กับรูปแบบข้อมูลหลายรูปแบบ เช่น เสียง ข้อความ และรูปภาพ ช่วยให้สามารถโต้ตอบที่เป็นธรรมชาติและเป็นธรรมชาติในสถานการณ์ต่างๆ

การปรับแต่งและการใช้งาน: การออกแบบสถาปัตยกรรมที่ปรับแต่งได้สูง เหมาะสำหรับหลายสาขาและสถานการณ์การใช้งานเพื่อตอบสนองความต้องการของแต่ละบุคคล

สถาปัตยกรรมทางเทคนิค:

PROTEUS ใช้โมเดลการแพร่กระจายแฝงและสถาปัตยกรรม Transformer ขั้นสูงเพื่อสร้างภาพที่ซับซ้อนอย่างมีประสิทธิภาพโดยการประมวลผลข้อมูลในพื้นที่แฝง

สถาปัตยกรรมและอัลกอริธึมที่ได้รับการปรับปรุงเพิ่มเติมช่วยให้สามารถสร้างความเร็วได้มากกว่า 100 เฟรมต่อวินาที

สถานการณ์การใช้งาน:

ผู้ช่วยเสมือนส่วนบุคคล: ให้การประมวลผลกิจวัตรประจำวัน การจัดการตารางเวลา การสืบค้นข้อมูล และบริการอื่น ๆ

สัตว์เลี้ยงเสมือนจริง: สร้างสัตว์เลี้ยงเสมือนจริงด้วยรูปลักษณ์ที่สมจริงและอารมณ์ที่หลากหลาย

การสนับสนุนทางอารมณ์: สร้างตัวละครเสมือนการสนับสนุนทางอารมณ์เพื่อให้ความสะดวกสบายและการสนับสนุนทางจิตใจ

การบริการลูกค้า: สร้างตัวแทนฝ่ายบริการลูกค้าเสมือนเพื่อให้การสนับสนุนลูกค้าทันทีและมีประสิทธิภาพ

การศึกษาและการฝึกอบรม: สร้างครูหรือผู้ฝึกอบรมเสมือนจริงเพื่อให้การศึกษาและการฝึกอบรมส่วนบุคคล

การปรับแต่งตัวละครในวิดีโอเกม: ช่วยให้ผู้พัฒนาเกมมีตัวละครในเกมที่ปรับแต่งได้สูง

ภาพยนตร์ โทรทัศน์ และความบันเทิง: ใช้เพื่อสร้างนักแสดงและตัวละครเสมือนจริงเพื่อลดต้นทุนการผลิต

การตลาดและการโฆษณา: สร้างโฆษกเสมือนสำหรับการโปรโมตผลิตภัณฑ์และการส่งเสริมแบรนด์

โซเชียลมีเดียและการขัดเกลาทางสังคมเสมือน: สร้างภาพเสมือนจริงบนแพลตฟอร์มโซเชียลเพื่อยกระดับประสบการณ์ทางสังคม

วิสัยทัศน์ของ PROTEUS คือการนำเสนอภาพที่ควบคุมด้วยเสียง ซึ่งทำหน้าที่เป็นอินเทอร์เฟซที่ใช้งานง่ายสำหรับเอนทิตีการสนทนาปลอม ทำให้ผู้ใช้สามารถสนทนาและโต้ตอบกับอวาตาร์ได้อย่างเป็นธรรมชาติ การจัดเตรียมที่ปลอดภัยและการเข้าถึง API ก่อนสำหรับเทคโนโลยีนี้จะพร้อมใช้งานสำหรับนักพัฒนาที่ได้รับการคัดเลือก

PROTEUS ถูกนำมาใช้ในกรณีของแอปพลิเคชันหลายรายการในการถ่ายทอดสดของ Twitch ซึ่งแสดงให้เห็นถึงศักยภาพของแอปพลิเคชันในสถานการณ์โต้ตอบแบบเรียลไทม์ ผ่าน API ทำให้ PROTEUS สามารถเรียกใช้และใช้ในแอปพลิเคชันใดก็ได้ โดยนำประสบการณ์การโต้ตอบของตัวละครเสมือนจริงที่เป็นนวัตกรรมมาสู่อุตสาหกรรมต่างๆ

เว็บไซต์อย่างเป็นทางการ: https://apparate.ai/stream.html

โดยรวมแล้ว ด้วยความสามารถในการสร้างแบบเรียลไทม์อันทรงพลัง การโต้ตอบหลายรูปแบบ และโอกาสในการใช้งานที่กว้างขวาง โมเดล PROTEUS AI คาดว่าจะก่อให้เกิดการปฏิวัติในด้านการโต้ตอบกับตัวละครเสมือน และนำประสบการณ์เชิงโต้ตอบใหม่มาสู่ผู้ใช้ การพัฒนาในอนาคตเป็นสิ่งที่ควรค่าแก่การรอคอย