โครงการ Open-Sora แบบโอเพ่นซอร์สของทีม Luchen มีความก้าวหน้าอย่างมากในด้านการสร้างวิดีโอความละเอียดสูง 720p ความเร็วในการสร้างที่มีประสิทธิภาพและเอาต์พุตคุณภาพสูงนั้นน่าทึ่งมาก โปรเจ็กต์นี้ได้รับดาวมากกว่า 17.5,000 ดวงอย่างรวดเร็วบน GitHub และได้รับความสนใจจากอุตสาหกรรมอย่างกว้างขวาง แม้แต่ Lambda Labs ก็สร้างจักรวาล LEGO ดิจิทัลตามน้ำหนักโมเดล Open-Sora ไม่เพียงแต่ใช้งานง่าย สะดวกพอๆ กับการสั่งซื้อกลับบ้าน แต่ที่สำคัญกว่านั้น ยังเปิดน้ำหนักของโมเดลและเส้นทางทางเทคนิคโดยละเอียด ช่วยให้นักพัฒนาและผู้สนใจสามารถมีส่วนร่วมและส่งเสริมความก้าวหน้าของเทคโนโลยีวิดีโอ Wensheng ได้มากขึ้น
เมื่อเร็วๆ นี้ ทีมงาน Luchen Open-Sora ประสบความสำเร็จอย่างก้าวกระโดดในด้านคุณภาพและเวลาในการสร้างวิดีโอความละเอียดสูง 720p พวกเขาไม่เพียงแต่สร้างข่าวใหญ่ในด้านคุณภาพและเวลาในการสร้างวิดีโอความละเอียดสูง 720p เท่านั้น แต่พวกเขายังทำสิ่งนี้ด้วย โอเพ่นซอร์สที่รักเพื่อให้ทั้งชุมชนตื่นเต้น!
ไม่ใช่เรื่องเกินจริงที่จะกล่าวว่าโปรเจ็กต์โอเพ่นซอร์สของพวกเขาทำให้การสร้างวิดีโอเป็นเรื่องง่ายเหมือนกับการสั่งกลับบ้าน นับตั้งแต่เปิดตัวในเดือนมีนาคม ก็ได้รับดาว 17.5K บน GitHub และได้รับความนิยมอย่างมาก!
ที่อยู่โอเพ่นซอร์ส: https://github.com/hpcaitech/Open-Sora
Open-Sora สามารถสร้างวิดีโอความละเอียดสูง 720p ความยาว 16 วินาทีได้ด้วยคลิกเดียว ไม่ว่าจะเป็นภาพบุคคลที่สวยงาม ภาพยนตร์แนวไซไฟชื่อดัง หรือภาพเคลื่อนไหวที่สดใสและน่าสนใจ พร้อมเอฟเฟกต์การซูมที่ราบรื่น ก็จัดการได้อย่างง่ายดาย ไม่ แม้แต่ Lambda Labs บริษัท AI ที่ Nvidia ถือหุ้น ก็ยังได้สร้างจักรวาล Lego แบบดิจิทัลโดยอิงตามน้ำหนักของโมเดล Open-Sora ทำให้แฟน ๆ Lego ได้ค้นพบโลกแห่งความคิดสร้างสรรค์ใหม่ ๆ
ทีม Luchen ไม่เพียงแต่เปิดแหล่งที่มาของน้ำหนักโมเดลเท่านั้น แต่ยังเผยแพร่เส้นทางทางเทคนิคบน GitHub อีกด้วย ซึ่งช่วยให้ผู้เล่นทุกคนกลายเป็นผู้เชี่ยวชาญของโมเดลวิดีโอขนาดใหญ่ได้ รายงานทางเทคนิคนี้วิเคราะห์ประเด็นหลักและประเด็นสำคัญของการฝึกโมเดลอย่างลึกซึ้ง ตั้งแต่เครือข่ายการบีบอัดวิดีโอไปจนถึงอัลกอริธึมโมเดลการแพร่กระจายไปจนถึงความสามารถในการควบคุม พวกเขาใช้โมเดลการสร้างการแพร่กระจาย 1.1B เพื่อแก้ไขจุดด้อยของการฝึกโมเดลวิดีโอ
ที่อยู่รายงาน: https://github.com/hpcaitech/Open-Sora/blob/main/docs/report_03.md
การแนะนำเครือข่ายการบีบอัดวิดีโอเป็นวิธีเดียวกับ Sora ของ OpenAI สามารถบีบอัดได้ 4 เท่าในมิติเวลาโดยไม่ต้องแยกเฟรม และสามารถใช้ FPS ดั้งเดิมเพื่อสร้างวิดีโอได้ ทีมงานยังเสนอเครือข่ายการบีบอัดวิดีโอแบบง่าย (เช่น VAE) ซึ่งสามารถบีบอัดได้ 8x8 เท่าในมิติเชิงพื้นที่ก่อน จากนั้นจึงบีบอัดได้ 4 เท่าในมิติเวลา
โมเดลการแพร่กระจายล่าสุดของ Stable Diffusion3 ปรับปรุงคุณภาพการสร้างผ่านเทคโนโลยีการไหลแบบแก้ไข เทคโนโลยีที่ทีมงานของ Luchen มอบให้ ได้แก่ การฝึกอบรมการแก้ไข การสุ่มตัวอย่างขั้นตอนเวลา logit-norm ฯลฯ ซึ่งช่วยเพิ่มความเร็วในการฝึกโมเดลและลดเวลารอคอยในการอนุมาน
รายงานยังเปิดเผยรายละเอียดหลักของการฝึกโมเดล รวมถึงการล้างข้อมูล เทคนิคการปรับแต่งโมเดล และการสร้างระบบการประเมินโมเดล พวกเขายังมีการปรับใช้แอปพลิเคชัน Gradio เพียงคลิกเดียว ซึ่งรองรับการปรับพารามิเตอร์ต่างๆ
โอเพ่นซอร์สของ Luchen Open-Sora ทำลายวงจรปิดและเติมพลังให้กับนวัตกรรมและการพัฒนาของ Vincent Video ผู้ใช้ได้เปลี่ยนจากผู้บริโภคเนื้อหามาเป็นผู้สร้าง และผู้ใช้ระดับองค์กรได้ปลดล็อกทักษะใหม่ๆ เพื่อการพัฒนาอย่างอิสระ
โอเพ่นซอร์สของ Open-Sora ช่วยลดเกณฑ์การเข้าสู่เทคโนโลยีวิดีโอ Wensheng และมอบความเป็นไปได้ที่ไม่จำกัดสำหรับการสร้างเนื้อหาสร้างสรรค์ในอนาคต คุ้มค่าที่จะรอคอยการพัฒนาในภายหลังและการสำรวจสถานการณ์การใช้งานเพิ่มเติม