ทีมวิจัยจากมหาวิทยาลัยหนานจิงร่วมมือกับ ByteDance และ Southwest University เพื่อเปิดตัวเทคโนโลยีวิดีโอความละเอียดสูงที่เป็นนวัตกรรมใหม่ที่เรียกว่า STAR เทคโนโลยีนี้ผสมผสานวิธีการปรับปรุง spatiotemporal และโมเดลข้อความเป็นวิดีโออย่างชาญฉลาด ซึ่งสามารถปรับปรุงความคมชัดของวิดีโอความละเอียดต่ำได้อย่างมาก โดยเฉพาะวิดีโอที่ดาวน์โหลดจากแพลตฟอร์มวิดีโอ โมเดล STAR เวอร์ชันก่อนการฝึกได้รับการเปิดแหล่งที่มาบน GitHub เพื่อความสะดวกของนักวิจัยและนักพัฒนา นี่เป็นความก้าวหน้าครั้งสำคัญในด้านการประมวลผลวิดีโอ โปรเจ็กต์มีสองรุ่น ได้แก่ I2VGen-XL และ CogVideoX-5B และรองรับรูปแบบอินพุตหลายรูปแบบและตัวเลือกพร้อมต์เพื่อตอบสนองความต้องการที่แตกต่างกัน
เพื่ออำนวยความสะดวกแก่นักวิจัยและนักพัฒนา ทีมวิจัยจึงได้เปิดตัวโมเดล STAR เวอร์ชันก่อนการฝึกอบรมบน GitHub ซึ่งรวมถึงสองรุ่น I2VGen-XL และ CogVideoX-5B รวมถึงโค้ดอนุมานที่เกี่ยวข้อง การเปิดตัวเครื่องมือเหล่านี้ถือเป็นความก้าวหน้าที่สำคัญในด้านการประมวลผลวิดีโอ
ขั้นตอนการใช้โมเดลนี้ค่อนข้างง่าย ขั้นแรก ผู้ใช้จำเป็นต้องดาวน์โหลดโมเดล STAR ที่ได้รับการฝึกล่วงหน้าจาก HuggingFace และใส่ลงในไดเร็กทอรีที่ระบุ ถัดไป เตรียมไฟล์วิดีโอที่จะทดสอบและเลือกตัวเลือกข้อความแจ้งที่เหมาะสม รวมถึงไม่มีข้อความแจ้ง ข้อความที่สร้างโดยอัตโนมัติ หรือข้อความแจ้งที่ป้อนด้วยตนเอง ผู้ใช้จำเป็นต้องปรับการตั้งค่าเส้นทางในสคริปต์เพื่อให้ประมวลผลวิดีโอความละเอียดสูงพิเศษได้อย่างง่ายดาย
โปรเจ็กต์นี้ออกแบบมาเป็นพิเศษสองรุ่นโดยใช้ I2VGen-XL ซึ่งใช้สำหรับการประมวลผลการลดคุณภาพวิดีโอในระดับต่างๆ เพื่อให้แน่ใจว่าจะสามารถตอบสนองความต้องการที่หลากหลายได้ นอกจากนี้ รุ่น CogVideoX-5B รองรับรูปแบบอินพุต 720x480 โดยเฉพาะ ซึ่งให้ตัวเลือกที่ยืดหยุ่นสำหรับสถานการณ์เฉพาะ
งานวิจัยนี้ไม่เพียงแต่ให้แนวคิดใหม่ๆ สำหรับการพัฒนาเทคโนโลยีวิดีโอความละเอียดสูงพิเศษเท่านั้น แต่ยังเปิดแนวทางการวิจัยใหม่สำหรับนักวิจัยในสาขาที่เกี่ยวข้องอีกด้วย ทีมวิจัยแสดงความขอบคุณต่อเทคโนโลยีล้ำสมัย เช่น I2VGen-XL, VEnhancer, CogVideoX และ OpenVid-1M ซึ่งพวกเขาเชื่อว่าเป็นการวางรากฐานสำหรับโครงการของพวกเขา
ทางเข้าโครงการ: https://github.com/NJU-PCALab/STAR
ไฮไลท์:
เทคโนโลยีใหม่ STAR ผสมผสานโมเดลข้อความเป็นวิดีโอเพื่อให้ได้วิดีโอที่มีความละเอียดสูงสุดและปรับปรุงคุณภาพวิดีโอ
ทีมวิจัยได้เปิดตัวโมเดลที่ได้รับการฝึกอบรมล่วงหน้าและรหัสการอนุมาน และขั้นตอนการใช้งานก็เรียบง่ายและชัดเจน
ให้ข้อมูลการติดต่อเพื่อกระตุ้นให้ผู้ใช้สื่อสารและหารือกับทีมวิจัย
โครงการ STAR เป็นโอเพ่นซอร์สผ่าน GitHub ทำให้ง่ายสำหรับนักพัฒนาและนักวิจัยในการใช้งาน กระบวนการดำเนินการที่เรียบง่ายและใช้งานง่ายและฟังก์ชันอันทรงพลังนำความเป็นไปได้ใหม่ๆ มาสู่ด้านความละเอียดสูงสุดของวิดีโอ และมอบทิศทางใหม่สำหรับการวิจัยในอนาคต . เราหวังเป็นอย่างยิ่งว่าเทคโนโลยี STAR จะมีบทบาทมากขึ้นในการใช้งานจริง