Bytedance เปิดตัว Omnihuman: สร้างวิดีโอไดนามิกเต็มรูปแบบที่สมจริงจากภาพถ่ายเดี่ยว - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-06 06:32:02

Byte Beating เปิดตัวระบบ AI ใหม่ Omnihuman ซึ่งสามารถสร้างวิดีโอร่างกายทั้งหมดที่สมจริงโดยใช้ภาพถ่ายเดี่ยวเพื่อแสดงสุนทรพจน์ของตัวละครการร้องเพลงและการกระทำตามธรรมชาติ เทคโนโลยีนี้รวมอินพุตที่หลากหลายเช่นข้อความเสียงและการเคลื่อนไหวของมนุษย์และใช้วิธีการฝึกอบรม "เงื่อนไขเต็ม" เพื่อเรียนรู้จากข้อมูลขนาดใหญ่ การเกิดขึ้นของ Omnihuman บ่งชี้ว่าสาขาความบันเทิงและการสื่อสารดิจิทัลจะนำไปสู่การเปลี่ยนแปลงใหม่นำความเป็นไปได้ไม่ จำกัด สำหรับการสร้างวิดีโอการผลิตเนื้อหาทางการศึกษาและการสื่อสารดิจิทัล

Omnihuman สามารถสร้างวิดีโอเต็มรูปแบบเพื่อแสดงท่าทางและการเปลี่ยนแปลงของตัวละครเมื่อพวกเขาพูดเกินกว่ารุ่น AI ที่สามารถจำลองร่างกายหรือร่างกายส่วนบนเท่านั้น หลักของเทคโนโลยีนี้คือการรวมอินพุตที่หลากหลายเช่นข้อความเสียงและการเคลื่อนไหวของมนุษย์

ทีมวิจัยชี้ให้เห็นว่า Omnihuman ได้แสดงความคืบหน้าอย่างมีนัยสำคัญหลังจากการฝึกอบรมข้อมูลวิดีโอของมนุษย์มากกว่า 18,700 ชั่วโมง ด้วยการแนะนำสัญญาณที่มีเงื่อนไขต่าง ๆ (เช่นข้อความเสียงและท่าทาง) เทคโนโลยีนี้ไม่เพียง แต่ปรับปรุงคุณภาพของการสร้างวิดีโอ แต่ยังช่วยลดการสูญเสียข้อมูลได้อย่างมีประสิทธิภาพ

นักวิจัยที่กล่าวถึงในบทความที่ตีพิมพ์ใน Arxiv ว่าถึงแม้ว่าเทคโนโลยีการเคลื่อนไหวของมนุษย์จะมีความคืบหน้าอย่างมีนัยสำคัญในช่วงไม่กี่ปีที่ผ่านมา แต่วิธีการที่มีอยู่ยังคงมีข้อ จำกัด ในการขยายระดับแอปพลิเคชัน

Omnihuman มีศักยภาพในการใช้งานที่หลากหลายและสามารถนำมาใช้ในการทำวิดีโอคำพูดแสดงให้เห็นถึงการแสดงเครื่องมือ ฯลฯ หลังจากการทดสอบเทคโนโลยีนี้ดีกว่าระบบที่มีอยู่ในเกณฑ์มาตรฐานคุณภาพหลายอย่างแสดงประสิทธิภาพที่ยอดเยี่ยม การพัฒนานี้ปรากฏในบริบทของการเพิ่มการแข่งขันระหว่างเทคโนโลยีการสร้างวิดีโอ AI และ บริษัท ต่างๆเช่น Google, Meta และ Microsoft ก็กำลังไล่ตามเทคโนโลยีที่คล้ายกันอย่างแข็งขัน

อย่างไรก็ตามถึงแม้ว่า Omnihuman จะนำความเป็นไปได้ของการเปลี่ยนแปลงการผลิตความบันเทิงการสร้างเนื้อหาทางการศึกษาและการสื่อสารดิจิทัล แต่ก็มีความกังวลเกี่ยวกับการใช้สื่อสังเคราะห์ในทางที่ผิด ทีมวิจัยจะนำเสนอผลการวิจัยของพวกเขาในการประชุมวิสัยทัศน์คอมพิวเตอร์ที่กำลังจะมาถึงแม้ว่าเวลาและการประชุมที่เฉพาะเจาะจงยังไม่ได้ประกาศ

วิทยานิพนธ์: https://arxiv.org/pdf/2502.01061

คะแนน:

Omnihuman เป็น AI รูปแบบใหม่ที่สามารถเปลี่ยนภาพถ่ายเดี่ยวเป็นวิดีโอร่างกายที่สมจริงได้

หลังจากการฝึกอบรมข้อมูลวิดีโอของมนุษย์ 18,700 ชั่วโมงเทคโนโลยีนี้รวมสัญญาณอินพุตที่หลากหลายเพื่อปรับปรุงเอฟเฟกต์การสร้าง

แม้จะมีศักยภาพในการใช้งานที่กว้างขวาง แต่ก็มีความกังวลเกี่ยวกับความเป็นไปได้ของสื่อสังเคราะห์

ความก้าวหน้าของเทคโนโลยี Omnihuman ได้กำหนดมาตรฐานใหม่สำหรับการสร้างวิดีโอ AI แต่ในขณะเดียวกันก็ต้องให้ความสนใจกับความเสี่ยงทางจริยธรรมที่อาจเกิดขึ้น ใช้อย่างสมเหตุสมผลและหลีกเลี่ยงผลกระทบเชิงลบ รอคอยแอพพลิเคชั่นและผลการวิจัยเพิ่มเติมเกี่ยวกับ Omnihuman ในอนาคต