Rhymes AI เปิดตัวโมเดลการสร้างวิดีโอข้อความรูปภาพปฏิวัติ Allegro-TI2V - บทความ AI

ผู้เขียน：Eve Cole เวลาอัปเดต：2025-01-25 05:16:01

Rhymes AI ได้เปิดตัวโมเดลการสร้างข้อความเป็นภาพวิดีโอ Allegro-TI2V ซึ่งเป็นความก้าวหน้าครั้งสำคัญในด้าน AI ในด้านความคิดสร้างสรรค์ Allegro-TI2V รองรับความยาวบริบทสูงสุด 79.2K ความละเอียดเอาต์พุต 720×1280 พิกเซล และมีโหมดการสร้างหลายรูปแบบ เช่น การสร้างวิดีโอในภายหลังและการสร้างวิดีโอระดับกลาง ซึ่งช่วยปรับปรุงประสิทธิภาพของการสร้างวิดีโอได้อย่างมาก โมเดลดังกล่าวเผยแพร่ภายใต้ลิขสิทธิ์ Apache2.0 และผู้ใช้สามารถเข้าถึงและใช้งานได้ง่าย

เมื่อเร็วๆ นี้ Rhymes AI ได้เปิดตัวโมเดลการสร้างข้อความเป็นวิดีโอที่ปฏิวัติวงการ Allegro-TI2V เทคโนโลยีที่ก้าวล้ำนี้เปิดขอบเขตใหม่สำหรับการสร้างเนื้อหาดิจิทัล ในฐานะความก้าวหน้าล่าสุดใน generative AI นั้น Allegro-TI2V มอบเครื่องมือการเล่าเรื่องด้วยภาพที่ไม่เคยมีมาก่อนให้กับคนทำงานสร้างสรรค์ ซึ่งแสดงถึงศักยภาพอันยิ่งใหญ่ของเทคโนโลยี AI ในสาขาสร้างสรรค์

Allegro-TI2V เป็นเลิศในข้อกำหนดทางเทคนิคหลายประการ โดยรองรับความยาวบริบทสูงสุด 79.2K เทียบเท่ากับวิดีโอ 88 เฟรม ความละเอียดเอาต์พุตคือ 720×1280 พิกเซล และความเร็วในการสร้างวิดีโอคือ 15 เฟรมต่อวินาที ผู้ใช้ยังสามารถเลือกที่จะสอดแทรกเป็น 30FPS เพื่อตอบสนองความต้องการของสถานการณ์การใช้งานที่แตกต่างกัน สถาปัตยกรรมของรุ่นนี้มีความซับซ้อนมาก รวมถึง VideoVAE พารามิเตอร์ 175 ล้านพารามิเตอร์ และโมเดล VideoDiT พารามิเตอร์ 2.8 พันล้านพารามิเตอร์ ทำให้สามารถจับข้อความที่ผู้ใช้ป้อนและแก่นแท้ของภาพเริ่มต้นได้อย่างแม่นยำ นอกจากนี้ Allegro-TI2V ยังรองรับโหมดมัลติความแม่นยำ (FP32, BF16, FP16) ในโหมด BF16 จำเป็นต้องใช้หน่วยความจำ GPU เพียง 9.3GB ในการสร้างวิดีโอ ซึ่งลดความต้องการฮาร์ดแวร์ลงอย่างมาก

นวัตกรรมของ Allegro-TI2V คือการแนะนำโหมดเจเนอเรชันใหม่สองโหมด: การสร้างวิดีโอในภายหลัง: เนื้อหาวิดีโอต่อเนื่องจะถูกสร้างขึ้นตามข้อความแจ้งและเฟรมเริ่มต้น โหมดนี้ช่วยให้ผู้สร้างสร้างวิดีโอที่ตรงกับธีมและสไตล์ที่ตั้งไว้ได้อย่างง่ายดาย การสร้างวิดีโอระดับกลาง: ขึ้นอยู่กับเฟรมแรกและเฟรมสุดท้ายของวิดีโอที่กำหนด สร้างเฟรมระหว่างกลางที่เป็นธรรมชาติ ซึ่งทำลายข้อจำกัดด้านเวลาและพื้นที่ของการตัดต่อวิดีโอแบบเดิมๆ

โหมดที่เป็นนวัตกรรมเหล่านี้ช่วยให้ Allegro-TI2V สามารถมอบวิธีการสร้างวิดีโอที่มีประสิทธิภาพและยืดหยุ่นมากขึ้นแก่ผู้สร้าง ซึ่งจะช่วยปรับปรุงประสิทธิภาพและคุณภาพในการสร้างสรรค์อย่างมาก

Rhymes AI ได้เปิดตัว Allegro-TI2V ภายใต้ลิขสิทธิ์ Apache 2.0 ทำให้นักวิจัย นักพัฒนา และผู้สร้างเนื้อหาสามารถเข้าถึงและใช้งานเทคโนโลยีนี้ได้ง่ายขึ้น ผู้ใช้จำเป็นต้องติดตั้ง Python3.10+, PyTorch2.4+ และ CUDA12.4+ เท่านั้น เพื่อเริ่มต้นใช้งานและสัมผัสกับเทคโนโลยีขั้นสูงนี้ได้อย่างรวดเร็ว

Allegro-TI2V มีโอกาสในการใช้งานที่หลากหลาย ตั้งแต่การผลิตภาพยนตร์และการพัฒนาเกม ไปจนถึงงานศิลปะดิจิทัลและการสร้างต้นแบบเชิงสร้างสรรค์ ซึ่งทั้งหมดนี้สามารถมอบความสามารถอย่างเต็มที่ในการสร้างอันทรงพลัง ตามข้อมูลที่นักพัฒนาระบุไว้ H100 GPU ตัวเดียวสามารถสร้างวิดีโอความยาว 6 วินาทีได้ในเวลาประมาณ 20 นาที ด้วยการกำหนดค่าของ H100 GPU จำนวน 8 ตัว เวลาในการสร้างจะลดลงเหลือ 3 นาที ซึ่งช่วยปรับปรุงประสิทธิภาพของการสร้างเนื้อหาวิดีโอได้อย่างมาก .

ที่อยู่การใช้งาน: https://huggingface.co/rhymes-ai/Allegro-TI2V

ที่อยู่ผลิตภัณฑ์: https://rhymes.ai/blog-details/allegro-advanced-video-model-model

ด้วยฟังก์ชันอันทรงพลังและใช้งานง่าย Allegro-TI2V จะส่งเสริมการพัฒนาการสร้างเนื้อหาวิดีโออย่างมาก และนำความเป็นไปได้ใหม่ๆ มาสู่อุตสาหกรรมสร้างสรรค์ ลักษณะโอเพ่นซอร์สของมันยังส่งเสริมการมีส่วนร่วมของชุมชนในวงกว้างและการพัฒนาเทคโนโลยี และมันก็คุ้มค่าที่จะรอคอยการใช้งานและการปรับปรุงในอนาคต