ดาวน์โหลด StreamingT2V - ดาวน์โหลดซอร์สโค้ด StreamingT2V

StreamingT2V

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

สตรีมมิ่งSVD

วิธีการถดถอยอัตโนมัติที่ได้รับการปรับปรุงเปลี่ยน SVD ให้กลายเป็นเครื่องมือสร้างวิดีโอขนาดยาวคุณภาพสูง

- ข่าว | ผลลัพธ์ | - ตั้งค่า | การอนุมาน

พบกับ StreamingSVD - วิธีการ StreamingT2V

StreamingSVD เป็นเทคนิคการถดถอยอัตโนมัติขั้นสูงสำหรับการสร้างข้อความเป็นวิดีโอและรูปภาพเป็นวิดีโอ สร้างวิดีโอคุณภาพสูงขนาดยาวพร้อมไดนามิกของการเคลื่อนไหวที่สมบูรณ์ เปลี่ยน SVD ให้เป็นโปรแกรมสร้างวิดีโอขนาดยาว วิธีการของเราช่วยให้มั่นใจได้ถึงความสอดคล้องชั่วคราวตลอดทั้งวิดีโอ จัดเรียงอย่างใกล้ชิดกับข้อความ/รูปภาพที่ป้อน และรักษาคุณภาพของภาพระดับเฟรมในระดับสูง การสาธิตของเราประกอบด้วยตัวอย่างวิดีโอที่ประสบความสำเร็จซึ่งมีขนาดสูงสุด 200 เฟรม เป็นระยะเวลา 8 วินาที และสามารถขยายระยะเวลาให้นานขึ้นได้

ประสิทธิผลของแนวทางการถดถอยอัตโนมัติที่ซ่อนอยู่นั้นไม่ได้จำกัดอยู่ที่โมเดลพื้นฐานเฉพาะที่ใช้ ซึ่งบ่งชี้ว่าการปรับปรุงโมเดลพื้นฐานสามารถให้วิดีโอคุณภาพสูงขึ้นได้ StreamingSVD เป็นส่วนหนึ่งของกลุ่มผลิตภัณฑ์ StreamingT2V การใช้งานที่ประสบความสำเร็จอีกอย่างหนึ่งคือ StreamingModelscope ซึ่งเปลี่ยน Modelscope ให้เป็นเครื่องมือสร้างวิดีโอขนาดยาว วิธีการนี้ช่วยให้สามารถสร้างวิดีโอที่มีความยาวสูงสุด 2 นาที โดยมีปริมาณการเคลื่อนไหวสูงและไม่มีการหยุดนิ่ง

- ข่าว

* [08/30/2024] เปิดตัวโค้ดและรุ่นแล้ว! ตุ้มน้ำหนักของโมเดลมีอยู่ใน ?HuggingFace

ผลลัพธ์

ผลลัพธ์โดยละเอียดสามารถพบได้ในหน้าโครงการ

ความต้องการ

รหัสของเราต้องการ VRAM ขนาด 60 GB ในการตั้งค่าเริ่มต้น (เมื่อสร้าง 200 เฟรม) พยายามลดจำนวนเฟรมหรือเปิดใช้งานการผสมแบบสุ่มเพื่อลดพื้นที่หน่วยความจำ รหัสของเราได้รับการทดสอบบน linux โดยใช้ Python 3.9 และ CUDA 11.7

- ตั้งค่า

โคลนที่เก็บนี้และติดตั้งข้อกำหนดโดยใช้ CUDA >= 11.7:

git clone https://github.com/Picsart-AI-Research/StreamingT2V.git
cd StreamingT2V/
virtualenv -p python3.9 venv
source venv/bin/activate
pip install --upgrade pip
pip install -r requirements.txt

ตรวจสอบให้แน่ใจว่าติดตั้ง FFMPEG แล้ว

การอนุมาน

รูปภาพเป็นวิดีโอ

หากต้องการรันไปป์ไลน์ทั้งหมดซึ่งประกอบด้วยภาพต่อวิดีโอ การปรับปรุงวิดีโอ (รวมถึงการผสมผสานแบบสุ่มของเรา) และการแก้ไขเฟรมวิดีโอทำได้จากโฟลเดอร์ StreamingT2V :

 cd code
python inference_i2v.py --input $INPUT --output $OUTPUT

$INPUT ต้องเป็นพาธไปยังไฟล์รูปภาพหรือโฟลเดอร์ที่มีรูปภาพ แต่ละภาพคาดว่าจะมีอัตราส่วน 16:9

$OUTPUT ต้องเป็นเส้นทางไปยังโฟลเดอร์ที่จะจัดเก็บผลลัพธ์

ปรับไฮเปอร์พารามิเตอร์

จำนวนเฟรมที่สร้างขึ้น

เพิ่ม --num_frames $FRAMES ในการเรียกเพื่อกำหนดจำนวนเฟรมที่จะสร้าง ค่าเริ่มต้น: $FRAMES=200

ใช้การผสมแบบสุ่ม

เพิ่ม --use_randomized_blending $RB ในการเรียกเพื่อกำหนดว่าจะใช้การผสมแบบสุ่มหรือไม่ ค่าเริ่มต้น: $RB=False เมื่อใช้การผสมแบบสุ่ม ค่าที่แนะนำสำหรับพารามิเตอร์ chunk_size และ overlap_size คือ --chunk_size 38 และ --overlap_size 12 ตามลำดับ โปรดทราบว่าการผสมแบบสุ่มจะทำให้กระบวนการสร้างช้าลง ดังนั้นควรพยายามหลีกเลี่ยงหากคุณมีหน่วยความจำ GPU เพียงพอ

เอาต์พุต FPS

เพิ่ม --out_fps $FPS ในการโทรเพื่อกำหนด FPS ของวิดีโอเอาต์พุต ค่าเริ่มต้น: $FPS=24

แผนการในอนาคต

รายงานทางเทคนิคที่อธิบาย StreamingSVD
การเปิดตัว StreamingSVD สำหรับการแปลงข้อความเป็นวิดีโอ
การลดหน่วยความจำ VRAM

MAWE (ข้อผิดพลาด Motion Aware Warp)

ข้อผิดพลาด Motion Aware Warp ที่เราเสนอ (ดูเอกสารของเรา) มีให้ไว้ที่นี่

StreamingModelscope

โค้ดสำหรับโมเดล StreamingT2V ที่ใช้ Modelscope ตามที่อธิบายไว้ในรายงานของเรา สามารถพบได้ที่นี่

ใบอนุญาต

รหัสและโมเดลของเราเผยแพร่ภายใต้ใบอนุญาต MIT

เรามีรหัสและน้ำหนักโมเดลของ SVD, EMA-VFI และ I2VGen-XL โปรดดูใบอนุญาตดั้งเดิมเกี่ยวกับรหัสและน้ำหนัก เนื่องจากการพึ่งพาเหล่านี้ StreamingSVD จึงสามารถใช้เพื่อวัตถุประสงค์ในการวิจัยที่ไม่ใช่เชิงพาณิชย์เท่านั้น

รับทราบ

SVD: วิธีการแปลงรูปภาพเป็นวิดีโอ
จัดขั้นตอนของคุณ: วิธีการเพิ่มประสิทธิภาพกำหนดการสุ่มตัวอย่าง
I2VGen-XL: วิธีการแปลงรูปภาพเป็นวิดีโอ
EMA-VFI: วิธีการแก้ไขเฟรมวิดีโอที่ล้ำสมัย
ตัวกระจาย: กรอบการทำงานสำหรับโมเดลการแพร่กระจาย

บิบเท็กซ์

หากคุณใช้ผลงานของเราในการวิจัยของคุณ โปรดอ้างอิงสิ่งพิมพ์ของเรา:

 @article{henschel2024streamingt2v,
  title={StreamingT2V: Consistent, Dynamic, and Extendable Long Video Generation from Text},
  author={Henschel, Roberto and Khachatryan, Levon and Hayrapetyan, Daniil and Poghosyan, Hayk and Tadevosyan, Vahram and Wang, Zhangyang and Navasardyan, Shant and Shi, Humphrey},
  journal={arXiv preprint arXiv:2403.14773},
  year={2024}
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-11-19
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด