ผลิตโดย Meta! Pippo: ป้อนรูปภาพตัวละครเดียวและสร้างภาพหลายมุมมองความละเอียดสูง-บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-02-17 18:32:01

ทีมวิจัยของ Meta Reality Labs เพิ่งประกาศเปิดตัวรูปแบบการสร้างนวัตกรรมที่เรียกว่า "Pippo" ซึ่งสามารถสร้างวิดีโอการหมุนเวียนที่เข้มข้นได้ที่ความละเอียดสูงสุด 1K จากภาพถ่ายปกติเดียว การพัฒนาทางเทคโนโลยีนี้ไม่เพียง แต่แสดงให้เห็นถึงความก้าวหน้าล่าสุดในด้านวิสัยทัศน์คอมพิวเตอร์ แต่ยังนำความเป็นไปได้ใหม่ ๆ มาสู่เทคโนโลยีการสร้างภาพ

นวัตกรรมหลักของโมเดล Pippo อยู่ในการออกแบบตัวแปลงการแพร่กระจายแบบหลายมุมมอง ซึ่งแตกต่างจากรุ่นกำเนิดแบบดั้งเดิม Pippo ไม่จำเป็นต้องพึ่งพาข้อมูลอินพุตเพิ่มเติมเช่นรุ่นพารามิเตอร์ที่เหมาะสมหรือพารามิเตอร์กล้อง ผู้ใช้จะต้องจัดเตรียมภาพถ่ายหนึ่งภาพและระบบสามารถสร้างเอฟเฟกต์วิดีโอหลายมุมมองโดยอัตโนมัติซึ่งจะนำเสนอภาพอักขระที่สดใสและสามมิติมากขึ้น

เพื่อความสะดวกของนักพัฒนา Pippo ได้รับการปล่อยตัวเป็นรุ่นรหัสเท่านั้นในครั้งนี้โดยไม่ต้องมีน้ำหนักก่อนการฝึกอบรม ทีมวิจัยได้จัดทำโมเดลที่สมบูรณ์ไฟล์การกำหนดค่ารหัสการอนุมานและรหัสการฝึกอบรมตัวอย่างสำหรับชุดข้อมูล AVA-256 นักพัฒนาสามารถเริ่มการฝึกอบรมแบบจำลองและการพัฒนาแอปพลิเคชันได้อย่างรวดเร็วผ่านการโคลนคำสั่งอย่างง่ายและตั้งค่าฐานรหัส

แผนการในอนาคตสำหรับโครงการ Pippo รวมถึงการเปรียบเทียบเพิ่มเติมและการเพิ่มประสิทธิภาพของรหัสและการเปิดตัวสคริปต์การอนุมานสำหรับรุ่นที่ผ่านการฝึกอบรมมาก่อน การปรับปรุงเหล่านี้จะช่วยปรับปรุงประสบการณ์ผู้ใช้อย่างมีนัยสำคัญและส่งเสริมความนิยมอย่างกว้างขวางของเทคโนโลยีนี้ในการใช้งานจริง

ลิงค์โครงการ: https://github.com/facebookresearch/pippo

ประเด็นสำคัญ:

โมเดล Pippo สามารถสร้างวิดีโอหลายมุมมองความละเอียดสูงจากภาพถ่ายปกติเดียวโดยไม่ต้องป้อนข้อมูลเพิ่มเติม

รหัสถูกเผยแพร่เท่านั้นและไม่รวมถึงน้ำหนักการฝึกอบรมล่วงหน้า

ทีมวางแผนที่จะเปิดตัวคุณสมบัติและการปรับปรุงเพิ่มเติมในอนาคตเพื่อปรับปรุงประสบการณ์ผู้ใช้