บรรณาธิการของ Downcodes ได้เรียนรู้ว่ามีความก้าวหน้าครั้งสำคัญในด้านการสร้างวิดีโอ! Genmo ได้เปิดซอร์สโมเดลการสร้างวิดีโอล่าสุด Mochi1 ซึ่งมีพารามิเตอร์ 10 พันล้านและเป็นโมเดลการสร้างวิดีโอที่ใหญ่ที่สุดที่เผยแพร่สู่สาธารณะในปัจจุบัน Mochi1 ใช้สถาปัตยกรรม Asymmetric Diffusion Transformer (AsymmDiT) ที่เป็นนวัตกรรมใหม่ ซึ่งง่ายและปรับเปลี่ยนได้ง่าย ให้ความสะดวกอย่างยิ่งแก่นักพัฒนาชุมชนโอเพ่นซอร์ส และสามารถสร้างวิดีโอคุณภาพสูงความยาวสูงสุด 5.4 วินาที และด้วยอัตราเฟรมสูงสุด 30 เฟรม/วินาที
ความก้าวหน้าครั้งสำคัญเกิดขึ้นในด้านการสร้างวิดีโอ! Genmo ได้เปิดแหล่งที่มาของรูปแบบการสร้างวิดีโอใหม่ล่าสุด Mochi1 ซึ่งสร้างมาตรฐานใหม่ในด้านการสร้างวิดีโอ Mochi1 ใช้สถาปัตยกรรม Asymmetric Diffusion Transformer (AsymmDiT) ที่เป็นนวัตกรรมใหม่ และมีพารามิเตอร์มากถึง 1 หมื่นล้านพารามิเตอร์ ทำให้กลายเป็นโมเดลการสร้างวิดีโอที่ใหญ่ที่สุดที่เผยแพร่สู่สาธารณะจนถึงปัจจุบัน
ที่สำคัญกว่านั้นคือได้รับการฝึกฝนอย่างสมบูรณ์ตั้งแต่เริ่มต้นและมีสถาปัตยกรรมที่เรียบง่ายและปรับเปลี่ยนได้ ซึ่งมอบความสะดวกสบายอย่างมากให้กับนักพัฒนาในชุมชนโอเพ่นซอร์ส
จุดเด่นที่สุดของ Mochi1 คือคุณภาพการเคลื่อนไหวที่ยอดเยี่ยมและการปฏิบัติตามข้อความแจ้งอย่างแม่นยำ สามารถสร้างวิดีโอที่ราบรื่นความยาวสูงสุด 5.4 วินาทีด้วยอัตราเฟรมสูงสุด 30 เฟรม/วินาที พร้อมความสอดคล้องกันของเวลาที่น่าทึ่งและไดนามิกของการเคลื่อนไหวที่สมจริง
Mochi1 ยังสามารถจำลองปรากฏการณ์ทางกายภาพต่างๆ ได้ เช่น พลศาสตร์ของไหล การจำลองเส้นผม ฯลฯ ตัวละครที่สร้างขึ้นมีการเคลื่อนไหวที่เป็นธรรมชาติและราบรื่น แทบจะเทียบได้กับการแสดงในชีวิตจริง
เพื่อให้นักพัฒนาใช้งานได้ง่ายขึ้น Genmo ยังได้เปิดแหล่งที่มาของวิดีโอ VAE ซึ่งสามารถบีบอัดวิดีโอเป็น 1/128 ของขนาดดั้งเดิม ซึ่งช่วยลดจำนวนการคำนวณและความต้องการหน่วยความจำของโมเดลได้อย่างมีประสิทธิภาพ
สถาปัตยกรรม AsymmDiT จัดการข้อความแจ้งของผู้ใช้และแท็กวิดีโอที่ถูกบีบอัดได้อย่างมีประสิทธิภาพผ่านกลไกการเอาใจใส่ตนเองหลายรูปแบบ และเรียนรู้เลเยอร์ MLP แยกกันสำหรับแต่ละรูปแบบ ซึ่งช่วยปรับปรุงประสิทธิภาพและประสิทธิภาพของแบบจำลองให้ดียิ่งขึ้น
การเปิดตัว Mochi1 ถือเป็นก้าวสำคัญในด้านการสร้างวิดีโอแบบโอเพ่นซอร์ส บริษัท Genmo กล่าวว่าพวกเขาจะปล่อย Mochi1 เวอร์ชันเต็มก่อนสิ้นปีนี้ รวมถึง Mochi1HD ที่รองรับการสร้างวิดีโอ 720p ซึ่งในเวลานั้นความเที่ยงตรงและความราบรื่นของวิดีโอจะได้รับการปรับปรุงให้ดียิ่งขึ้น
เพื่อให้ผู้คนได้สัมผัสกับฟังก์ชันอันทรงพลังของ Mochi1 มากขึ้น Genmo จึงได้เปิดตัวสนามเด็กเล่นที่เปิดให้ใช้งานฟรี ซึ่งผู้ใช้สามารถสัมผัสได้ที่ genmo.ai/play ตุ้มน้ำหนักและสถาปัตยกรรมของ Mochi1 ได้รับการเผยแพร่สู่สาธารณะบนแพลตฟอร์ม HuggingFace เพื่อให้นักพัฒนาดาวน์โหลดและใช้งาน
Genmo ประกอบด้วยสมาชิกหลักของโครงการต่างๆ เช่น DDPM, DreamFusion และ Emu Video และทีมที่ปรึกษา ได้แก่ Ion Stoica ประธานกรรมการบริหารและผู้ร่วมก่อตั้ง Databricks และ Anyscale, Pieter Abbeel ผู้ร่วมก่อตั้ง Covariant และสมาชิกทีมยุคแรกของ OpenAI และผู้นำในอุตสาหกรรมระบบโมเดลภาษา เช่น โจอี้ กอนซาเลซ ผู้บุกเบิกและผู้ร่วมก่อตั้ง Turi
ภารกิจของ Genmo คือการปลดล็อกสมองซีกขวาของปัญญาประดิษฐ์ทั่วไป และ Mochi1 เป็นก้าวแรกในการสร้างเครื่องจำลองโลกที่สามารถจินตนาการทุกสิ่ง เป็นไปได้หรือเป็นไปไม่ได้
เมื่อเร็วๆ นี้ Genmo เสร็จสิ้นการระดมทุนรอบ Series A ซึ่งนำโดย NEA มูลค่ารวม 28.4 ล้านดอลลาร์สหรัฐ ซึ่งจะให้การสนับสนุนทางการเงินที่เพียงพอสำหรับการวิจัยและพัฒนาในอนาคต
แม้ว่า Mochi1 จะได้รับผลลัพธ์ที่น่าประทับใจ แต่ก็ยังมีข้อจำกัดบางประการ ตัวอย่างเช่น เวอร์ชันเริ่มต้นปัจจุบันสามารถผลิตวิดีโอได้เพียง 480p เท่านั้น โดยมีความบิดเบี้ยวและการบิดเบี้ยวเล็กน้อยในบางกรณีที่มีการเคลื่อนไหวสุดขีด นอกจากนี้ ปัจจุบัน Mochi1 ยังได้รับการปรับให้เหมาะกับสไตล์ภาพถ่ายที่สมจริง และประสิทธิภาพในเนื้อหาแอนิเมชั่นจำเป็นต้องได้รับการปรับปรุง
Genmo กล่าวว่าจะปรับปรุง Mochi1 ต่อไป และสนับสนุนให้ชุมชนปรับแต่งโมเดลให้เหมาะกับความต้องการด้านสุนทรียภาพที่แตกต่างกัน ในเวลาเดียวกัน พวกเขายังได้ใช้ระเบียบการตรวจสอบความปลอดภัยที่เข้มงวดใน Playground เพื่อให้แน่ใจว่าการสร้างวิดีโอทั้งหมดมีจริยธรรม
ดาวน์โหลดโมเดล: https://huggingface.co/genmo/mochi-1-preview
ประสบการณ์ออนไลน์: https://www.genmo.ai/play
ข้อมูลเบื้องต้นอย่างเป็นทางการ: https://www.genmo.ai/blog
โอเพ่นซอร์สของ Mochi1 นำความเป็นไปได้ใหม่ๆ มาสู่วงการการสร้างวิดีโอ และฟังก์ชันอันทรงพลังและการใช้งานที่สะดวกสบายก็คุ้มค่ากับการรอคอย ความพยายามอย่างต่อเนื่องของ Genmo และการมีส่วนร่วมของชุมชนจะช่วยส่งเสริมความก้าวหน้าของเทคโนโลยีการสร้างวิดีโอต่อไป รอคอยการมาถึงของ Mochi1HD และการเกิดขึ้นของความสำเร็จเชิงนวัตกรรมเพิ่มเติม