باسيل فان هوريك، روندي وو، إيج أوزجور أوغلو، كايل سارجنت، روشي ليو، بافيل توكماكوف، أشال ديف، تشانغكسي زينج، كارل فوندريك
جامعة كولومبيا، جامعة ستانفورد، معهد أبحاث تويوتا
نشرت في ECCV 2024 (عن طريق الفم)
ورق | الموقع | النتائج | مجموعات البيانات | نماذج
يحتوي هذا المستودع على كود Python المنشور كجزء من بحثنا "Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis" (مختصر GCD ).
نحن نقدم تعليمات الإعداد والنماذج المدربة مسبقًا ورمز الاستدلال ورمز التدريب ورمز التقييم وإنشاء مجموعة البيانات.
يرجى ملاحظة أنني قمت بإعادة بناء قاعدة التعليمات البرمجية وتنظيفها للإصدار العام، وذلك في الغالب لتبسيط البنية بالإضافة إلى تحسين إمكانية القراءة والنمطية، لكنني لم أقم بفحص كل شيء بدقة بعد، لذا إذا واجهت أي مشكلات، فيرجى إخبارنا بذلك عن طريق فتح مشكلة ، ولا تتردد في اقتراح إصلاحات الأخطاء المحتملة إذا كان لديك أي منها.
جدول المحتويات:
أوصي بإعداد بيئة افتراضية وتثبيت الحزم اللازمة على النحو التالي:
conda create -n gcd python=3.10
conda activate gcd
conda install pytorch torchvision torchaudio pytorch-cuda=12.1 -c pytorch -c nvidia
pip install git+https://github.com/OpenAI/CLIP.git
pip install git+https://github.com/Stability-AI/datapipelines.git
pip install -r requirements.txt
تم تطوير المشروع في الغالب باستخدام الإصدار 2.0.1 من PyTorch، ومع ذلك، يجب أن يعمل مع الإصدارات الأحدث أيضًا. على وجه الخصوص، لم أواجه أية مشكلات حتى الآن مع PyTorch 2.3.1، وهو الإصدار الأحدث حتى وقت كتابة هذا التقرير.
لاحظ أن ملف المتطلبات لا يحدد إصدارات الحزمة، نظرًا لأنني من محبي المرونة (إضافة قيود الإصدار قد يؤدي إلى جعل اعتماد قواعد التعليمات البرمجية الموجودة في مشاريعك الجديدة أكثر تعقيدًا). ومع ذلك، إذا واجهت أي مشاكل، يرجى إعلامنا بذلك عن طريق فتح مشكلة. لقد قدمت أيضًا الإصدارات الدقيقة في requirements_versions.txt
للرجوع إليها.
يعتمد gcd-model
في الأصل على مستودع النماذج التوليدية الرسمية لـ Stability AI.
فيما يلي نقاط التفتيش الرئيسية لـ Kubric-4D التي قمنا بتدريبها واستخدامها في تجاربنا، إلى جانب قيم PSNR في مجموعة الاختبار. يشير العمود الأيسر إلى أقصى إزاحة للكاميرا من حيث الدوران الأفقي.
السمت | تدريجي | مباشر |
---|---|---|
ماكس 90 درجة | الارتباط (17.88 ديسيبل) | الارتباط (17.23 ديسيبل) |
ماكس 180 درجة | الارتباط (17.81 ديسيبل) | الارتباط (16.65 ديسيبل) |
فيما يلي نقاط التفتيش الرئيسية ParallelDomain-4D التي قمنا بتدريبها واستخدامها في تجاربنا، إلى جانب قيم PSNR أو mIoU في مجموعة الاختبار. يشير العمود الأيسر إلى طريقة الإخراج المتوقعة (يكون الإدخال دائمًا RGB).
الطريقة | تدريجي | مباشر |
---|---|---|
اللون (رغب) | الارتباط (23.47 ديسيبل) | الارتباط (23.32 ديسيبل) |
الدلالي | لينك (39.0%) | لينك (36.7%) |
يبلغ حجم جميع نقاط التفتيش المذكورة أعلاه 20.3 جيجابايت. ضعها في pretrained/
بحيث يكون لها نفس اسم ملفات التكوين .yaml
المقابلة.
هذا القسم مخصص لتشغيل نموذجنا بشكل عرضي على مقاطع الفيديو المخصصة. للحصول على تقييم كمي شامل على Kubric-4D أو ParallelDomain-4D، أو أي استنتاج سطر أوامر خارج مجموعتي البيانات هاتين الذي يحفظ النتائج والمرئيات على القرص الخاص بك، يرجى مراجعة قسم التقييم أدناه بدلاً من ذلك.
بالنسبة لنموذج Kubric-4D ، قم بتشغيل:
cd gcd-model/
CUDA_VISIBLE_DEVICES=0 python scripts/gradio_app.py --port=7880
--config_path=configs/infer_kubric.yaml
--model_path=../pretrained/kubric_gradual_max90.ckpt
--output_path=../eval/gradio_output/default/
--examples_path=../eval/gradio_examples/
--task_desc='Arbitrary monocular dynamic view synthesis on Kubric scenes up to 90 degrees azimuth'
لتجربة نماذج أخرى، ما عليك سوى تغيير config_path
و model_path
و task_desc
، على سبيل المثال لنموذج ParallelDomain-4D :
cd gcd-model/
CUDA_VISIBLE_DEVICES=1 python scripts/gradio_app.py --port=7881
--config_path=configs/infer_pardom.yaml
--model_path=../pretrained/pardom_gradual_rgb.ckpt
--output_path=../eval/gradio_output/default/
--examples_path=../eval/gradio_examples/
--task_desc='Upward monocular dynamic view synthesis on ParallelDomain scenes (RGB output)'
للتدريب والتقييم على Kubric-4D و/أو ParallelDomain-4D، تحتاج إلى معالجة مجموعات البيانات مسبقًا وتخزين سحب النقاط المدمجة. وذلك لأن مجموعات البيانات نفسها توفر فقط مقاطع فيديو RGB-D من وجهات نظر معينة، ولكننا نرغب في التحليق بحرية في المشهد رباعي الأبعاد والسماح بتعلم عناصر التحكم العشوائية في الكاميرا (واستكمال المسارات) أيضًا.
بالنسبة لكوبريك-4D :
cd data-gen/
python convert_pcl_kubric.py --gpus=0,0,1,1 --start_idx=0 --end_idx=3000
--input_root=/path/to/Kubric-4D/data
--output_root=/path/to/Kubric-4D/pcl
هنا، يجب أن يكون /path/to/Kubric-4D/data
هو المجلد الذي يحتوي على scn00000
و scn00001
وما إلى ذلك. سيتم قراءة البرنامج النصي من data
والكتابة إلى pcl/
(تأكد من أن لديك مساحة خالية قدرها 7.0 تيرابايت).
بالنسبة إلى ParallelDomain-4D :
cd data-gen/
python convert_pcl_pardom.py --gpus=0,0,1,1 --start_idx=0 --end_idx=1600
--input_root=/path/to/ParallelDomain-4D/data
--output_root=/path/to/ParallelDomain-4D/pcl
هنا، يجب أن يكون /path/to/ParallelDomain-4D/data
هو المجلد الذي يحتوي على scene_000000
و scene_000001
وما إلى ذلك. سيتم قراءة البرنامج النصي من data/
والكتابة إلى pcl/
(تأكد من أن لديك مساحة خالية تبلغ 4.4 تيرابايت).
يعتمد كلا نصي التحويل المذكورين أعلاه بشكل أساسي على وحدات معالجة الرسومات للمعالجة السريعة ويمكنهما تطبيق الموازاة على مستوى العملية. على سبيل المثال، --gpus=0,0,1,1
يعني إنتاج 4 عمال (2 لكل وحدة معالجة رسومات). أثناء التدريب، سيتم تركيز معظم عمليات الإدخال/الإخراج للقرص داخل مجلد pcl/
، لذا أوصي بتخزينه على محرك أقراص SSD محلي سريع.
إذا كنت تتدرب على مجموعة البيانات الخاصة بك، فإنني أوصي بإنشاء أداة تحميل بيانات جديدة باستخدام الكود المقدم كمرجع. إذا كنت تستخدم بياناتنا، فيرجى اتباع قسم معالجة مجموعة البيانات أعلاه أولاً.
أولاً، قم بتنزيل إحدى نقطتي فحص نشر الفيديو المستقرة التاليتين: SVD (14 إطارًا) أو SVD-XT (25 إطارًا)، وضعها في pretrained/
(أو قم بتحديث مسار نقطة التفتيش في ملفات التكوين المشار إليها أدناه). نحن نعمل حصريًا مع إصدار SVD ذو 14 إطارًا في تجاربنا بسبب قيود الموارد، لذا يرجى تغيير قيم التكوين الأخرى ذات الصلة إذا كنت تعمل مع SVD-XT ذو 25 إطارًا.
لبدء تدريب GCD على Kubric-4D (تدريجي، بحد أقصى 90 درجة):
cd gcd-model/
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python main.py
--base=configs/train_kubric_max90.yaml
--name=kb_v1 --seed=1234 --num_nodes=1 --wandb=0
model.base_learning_rate=2e-5
model.params.optimizer_config.params.foreach=False
data.params.dset_root=/path/to/Kubric-4D/data
data.params.pcl_root=/path/to/Kubric-4D/pcl
data.params.frame_width=384
data.params.frame_height=256
data.params.trajectory=interpol_linear
data.params.move_time=13
data.params.camera_control=spherical
data.params.batch_size=4
data.params.num_workers=4
data.params.data_gpu=0
lightning.callbacks.image_logger.params.batch_frequency=50
lightning.trainer.devices="1,2,3,4,5,6,7"
للتبديل إلى نموذج تركيب العرض المباشر (بدون الاستيفاء)، اضبط هذه القيمة: data.params.move_time=0
. لزيادة زاوية الدوران الأفقي القصوى (السمت)، حدد ملف التكوين الآخر: train_kubric_max180.yaml
.
سيكون النموذج الناتج قادرًا على إجراء توليف عرض ديناميكي أحادي 3-DoF على أي فيديو RGB، ولكنه عادةً ما يؤدي الأداء الأفضل في نطاق Kubric ومقاطع الفيديو الأخرى التي لا تحتوي على بشر.
لبدء تدريب GCD على ParallelDomain-4D (تدريجي، RGB):
cd gcd-model/
CUDA_VISIBLE_DEVICES=0,1,2,3,4,5,6,7 python main.py
--base=configs/train_pardom_rgb.yaml
--name=pd_v1 --seed=1234 --num_nodes=1 --wandb=0
model.base_learning_rate=2e-5
model.params.optimizer_config.params.foreach=False
data.params.dset_root=/path/to/ParallelDomain-4D/data
data.params.pcl_root=/path/to/ParallelDomain-4D/pcl
data.params.split_json=../eval/list/pardom_datasplit.json
data.params.frame_width=384
data.params.frame_height=256
data.params.output_modality=rgb
data.params.trajectory=interpol_sine
data.params.move_time=13
data.params.modal_time=0
data.params.camera_control=none
data.params.batch_size=4
data.params.num_workers=4
data.params.data_gpu=0
lightning.callbacks.image_logger.params.batch_frequency=50
lightning.trainer.devices="1,2,3,4,5,6,7"
للتبديل إلى نموذج تركيب العرض المباشر (بدون الاستيفاء)، اضبط هذه القيمة: data.params.move_time=0
. لتغيير طريقة الإخراج إلى فئات دلالية، حدد ملف التكوين الآخر: train_pardom_semantic.yaml
.
سيكون النموذج الناتج قادرًا على أداء تركيب عرض ديناميكي أحادي تصاعدي على أي فيديو RGB، ولكنه عادةً ما يؤدي الأداء الأفضل في مشاهد القيادة (سواء الاصطناعية أو الحقيقية) المسجلة في مواجهة الأمام على مستوى الشارع. لدي أيضًا نماذج داخلية قادرة على التحكم في الكاميرا 3-DoF (التحويلات من المحيط إلى المحيط وكذلك من المحيط إلى المحيط) في مجموعة البيانات هذه، وعلى الرغم من أنها ليست جزءًا من التجارب في ورقتنا، فقد يكون لدي عرضها و/أو إصدارها هنا في المستقبل.
لاحظ أنه في جميع الأوامر المذكورة أعلاه، يتم حجز مؤشر GPU 0 ( data.params.data_gpu
) لإنشاء أزواج من مقاطع الفيديو (الإدخال والحقيقة الأرضية) أثناء تحميل البيانات من سحب النقاط المدمجة المخزنة مؤقتًا في pcl/
. أوصي بعدم تدريب الشبكة على نفس وحدة معالجة الرسومات، ولهذا السبب فإن lightning.trainer.devices
مفككة وتغطي جميع وحدات معالجة الرسومات المتبقية بدلاً من ذلك.
سيكون استخدام VRAM لهؤلاء حوالي 50 جيجابايت لكل وحدة معالجة رسومات في الأمثلة المقدمة. أكبر ثلاثة عوامل تحدد VRAM هي: (1) حجم الدُفعة، (2) الدقة المكانية ( frame_width
و frame_height
)، (3) عدد الإطارات (SVD مقابل SVD-XT)، و(4) ما إذا كان وزن EMA المتوسط نشط. تم إجراء معظم تجاربنا على عقد فردية باستخدام 8 أجهزة NVIDIA A100 أو 8x NVIDIA A6000، وكلها بدون EMA بسبب الحوسبة المحدودة.
سيتم تخزين السجلات والمرئيات في مجلد فرعي مؤرخ داخل المجلد logs/
، والذي يوجد في نفس مستوى gcd-model/
. لكل عملية تشغيل، يتم تخزين تصورات التدريب في المجلد visuals/
المرئيات. إذا تمت مقاطعة التدريب، يمكنك الاستئناف عن طريق الإشارة --resume_from_checkpoint
إلى أحدث ملف نقطة تفتيش صالح، على سبيل المثال --resume_from_checkpoint=../logs/2024-02-30T12-15-05_kb_v1/checkpoints/last.ckpt
.
يقوم البرنامج النصي التالي بإنشاء العديد من أنواع المخرجات للفحص البصري والتقييم، ويجب تكييفه مع كل معيار. بالنسبة للعمليات الأخف، راجع قسم الاستدلال أعلاه. إذا كنت تستخدم بياناتنا، فتأكد من اتباع قسم معالجة مجموعة البيانات أعلاه أولاً. إذا كنت تقوم بالتقييم على مجموعة البيانات المخصصة الخاصة بك مع الحقيقة الأساسية، فإنني أوصي بإنشاء أداة تحميل بيانات جديدة وتعديل البرنامج النصي للاختبار أدناه.
لتقييم نموذج GCD المضبوط على Kubric-4D ، قم بتحديث المسارات في kubric_test20.txt
وقم بتشغيل:
cd gcd-model/
CUDA_VISIBLE_DEVICES=0,1 python scripts/test.py --gpus=0,1
--config_path=configs/infer_kubric.yaml
--model_path=../logs/*_kb_v1/checkpoints/epoch=00000-step=00010000.ckpt
--input=../eval/list/kubric_test20.txt
--output=../eval/output/kubric_mytest1
--control_json=../eval/list/kubric_valtest_controls_gradual.json
--control_idx=0 --autocast=1 --num_samples=2 --num_steps=25
لتحقيق الاتساق والعدالة، يطبق هذا الأمر مجموعة حتمية من زوايا الكاميرا وحدود الإطار المرتبطة بكل مشهد، كما هو موضح في kubric_valtest_controls_gradual.json
. تم إنشاء هذه الأرقام بشكل عشوائي مرة واحدة فقط وتم تثبيتها لاحقًا، ولكن بحيث يكون منظور الإدخال (أي spherical_src
) محاذاة مع فهرس العرض 4 في مجموعة البيانات. قم بتغيير هذا إلى kubric_valtest_controls_direct.json
إذا كنت تقوم بتقييم نموذج تركيب العرض المباشر. يمكنك أيضًا التقييم على عينات متعددة عن طريق زيادة --num_samples
(نفس عناصر التحكم) أو عن طريق تغيير --control_idx
(عناصر تحكم مختلفة لكل مشهد).
لتقييم نموذج GCD مضبوط على ParallelDomain-4D ، قم بتحديث المسارات في pardom_test20.txt
وقم بتشغيل:
cd gcd-model/
CUDA_VISIBLE_DEVICES=0,1 python scripts/test.py --gpus=0,1
--config_path=configs/infer_pardom.yaml
--model_path=../logs/*_pd_v1/checkpoints/epoch=00000-step=00010000.ckpt
--input=../eval/list/pardom_test20.txt
--output=../eval/output/pardom_mytest1
--control_json=../eval/list/pardom_valtest_controls.json
--control_idx=0 --autocast=1 --num_samples=2 --num_steps=25
وبالمثل كما كان من قبل، ومرة أخرى من أجل الاتساق والعدالة، تحتوي إشارات التحكم pardom_valtest_controls.json
فقط على حدود الإطار (أي الإزاحة والفاصل الزمني) لكل مشهد.
في جميع الحالات، بالنسبة للوسيطة --model_path
، يتم تطبيق grep
للتعامل مع أحرف البدل بحيث لا داعي للقلق بشأن الاضطرار إلى كتابة التواريخ. يتم أيضًا عرض إطارات الحقيقة الأرضية المقابلة وتخزينها في مجلد الإخراج، مما يسمح بإجراء تقييمات رقمية (انظر المقاييس أدناه).
إذا كنت تريد تجاهل عناصر تحكم JSON المتوفرة وبدلاً من ذلك تشغيل التقييم بطريقة أكثر حرية مع الزوايا وحدود الإطار المختارة في Kubric-4D:
cd gcd-model/
CUDA_VISIBLE_DEVICES=0,1 python scripts/test.py --gpus=0,1
--config_path=configs/infer_kubric.yaml
--model_path=../logs/*_kb_v1/checkpoints/epoch=00000-step=00010000.ckpt
--input=../eval/list/kubric_test20.txt
--output=../eval/output/kubric_mytest2_cc
--azimuth_start=70.0 --elevation_start=10.0 --radius_start=15.0
--delta_azimuth=30.0 --delta_elevation=15.0 --delta_radius=1.0
--frame_start=0 --frame_stride=2 --frame_rate=12
--reproject_rgbd=0 --autocast=1 --num_samples=2 --num_steps=25
في ParallelDomain-4D، لا تنطبق الوسائط الستة المتعلقة بالوضعية، ولكن لا يزال من الممكن اختيار حدود إطار مقطع الفيديو.
يحفظ البرنامج النصي test.py
أعلاه ملفات *_metrics.json
لكل مشهد ضمن المجلد extra/
الفرعي الذي يحتوي على أرقام PSNR وSSIM الإجمالية وكذلك لكل إطار. كما أنه يحفظ جميع الإطارات الفردية والمتوقعة والهدف كصور لكل مثال تتم معالجته بواسطة النموذج. لا تتردد في استخدام هذه المخرجات المتنوعة في سير عمل التقييم الكمي الخاص بك إذا كنت تريد حساب مقاييس إضافية و/أو مجمعة.
بالمقارنة مع قسم التقييم الرئيسي، لا يعتمد هذا النص على الحقيقة الأساسية، والتي قد لا تكون موجودة. بالمقارنة مع قسم الاستدلال (Gradio) ، يقوم هذا البرنامج النصي بتصدير المزيد من المعلومات والمرئيات.
قم بإعداد مسار مباشر إما إلى ملف فيديو أو مجلد صورة، أو قائمة بملفات الفيديو أو مجلدات الصور (في ملف .txt
بمسارات كاملة)، وقم بتشغيل:
cd gcd-model/
CUDA_VISIBLE_DEVICES=0 python scripts/infer.py --gpus=0
--config_path=configs/infer_kubric.yaml
--model_path=../pretrained/kubric_gradual_max90.ckpt
--input=/path/to/video.mp4
--output=../eval/output/kubric_myinfer1
--delta_azimuth=30.0 --delta_elevation=15.0 --delta_radius=1.0
--frame_start=0 --frame_stride=2 --frame_rate=12
--autocast=1 --num_samples=2 --num_steps=25
لاحظ أن --frame_rate
يجب أن يعكس معدل الإطارات في الثانية المستهدف بعد أخذ عينات فرعية مؤقتة من فيديو الإدخال، وليس قبل ذلك . إذا كنت تريد تقييم أمثلة متعددة، فإنني أوصي باستخدام قائمة عن طريق الإعداد --input=/path/to/list.txt
لتقليل حمل تحميل النموذج.
إذا كنت تريد استخدام نفس البيانات الدقيقة المستخدمة في تجاربنا، فيرجى الاطلاع على رابط التنزيل هذا للحصول على وصف ونسخ لـ Kubric-4D وParallelDomain-4D. يركز باقي هذا القسم على ما إذا كنت ترغب في تعديل مسارنا و/أو إنشاء بياناتك الاصطناعية الخاصة.
اتبع هذه التعليمات لتثبيت مكتبة OpenEXR. ثم قم بتشغيل الأوامر التالية لإعداد بيئتك:
conda activate gcd
pip install bpy==3.4.0
pip install pybullet
pip install OpenEXR
cd data-gen/kubric/
pip install -e .
المجلد الفرعي data-gen/kubric
يماثل إلى حد كبير هذا الالتزام من مستودع Google Research Kubric الرسمي، لكنني أضفت إصلاحًا بسيطًا لتجنب حالات السباق عند التعامل مع خرائط العمق.
هذا هو الأمر الذي استخدمناه لإنشاء مجموعة بيانات Kubric-4D النهائية (لاحظ السطر rm -rf /tmp/
):
cd data-gen/
for i in {1..110}
do
python export_kub_mv.py --mass_est_fp=gpt_mass_v4.txt
--root_dp=/path/to/kubric_mv_gen
--num_scenes=3000 --num_workers=10 --restart_count=30
--seed=900000 --num_views=16 --frame_width=576 --frame_height=384
--num_frames=60 --frame_rate=24 --save_depth=1 --save_coords=1
--render_samples_per_pixel=16 --focal_length=32
--fixed_alter_poses=1 --few_views=4
rm -rf /tmp/
done
مجموعة البيانات هي في الأساس نسخة مختلفة من TCOW Kubric وتتضمن تحسينات مثل المزيد من الكائنات الديناميكية وزيادة الواقعية الجماعية. راجع ملحق TCOW للحصول على التفاصيل.
لأغراض GCD، نقوم بعرض 16 مقطع فيديو متزامنًا متعدد المشاهدة من كاميرات ثابتة. أربع وجهات نظر على ارتفاع عالٍ قدره 45 درجة، ووجهات النظر الاثني عشر الأخرى على ارتفاع منخفض قدره 5 درجات. أوصي بفحص export_kub_mv.py
للحصول على مزيد من المعرفة حول معلماته ومنطقه.
يتم إنشاء جميع المشاهد iid، لذلك في نسختنا من مجموعة البيانات هذه، نحدد أول 2800 على أنها مجموعة التدريب وآخر 100 + 100 على أنها مجموعة التحقق من الصحة + الاختبار على التوالي. تقوم حلقة for الخارجية بمسح المجلد /tmp/
بانتظام لتجنب مشكلات مساحة القرص.
تأتي مجموعة البيانات هذه من خدمة ولا يمكن إعادة إنشائها. يرجى الاطلاع على رابط التحميل لنسختنا.
لاحظ أن بعض مجلدات المشهد غير موجودة (يوجد 1531 مجلد مشهد لكن الفهرس يصل إلى 2143)، وبعض المشاهد تحتوي على إطارات مفقودة، ولهذا السبب تم تصميم أداة تحميل البيانات لدينا لتكون قوية في كلتا المشكلتين. قد ترى بعض الرسائل التحذيرية أثناء التدريب ولكن هذا أمر طبيعي. أيضًا، على عكس Kubric، لا يتم فصل المشاهد فيما يتعلق بالفهرس، وبالتالي في pardom_datasplit.json
قمنا بتحديد مجموعات فرعية عشوائية مسبقًا للتدريب والتحقق من الصحة والاختبار.
نحدد أحجام مجموعة التحقق من الصحة والاختبار لتكون 61 + 61 مشهدًا على التوالي (كل منها تقريبًا 4% من إجمالي مجموعة البيانات).
لقد كتبت بعض الأدوات، استنادًا إلى TRI camviz، لتصور مشاهد نموذجية بشكل تفاعلي من Kubric-4D وParallelDomain-4D على جهاز الكمبيوتر المحلي الخاص بك. قد أقوم بنشرها هنا لاحقًا، لكن لا تتردد في الاتصال بي (باسيلي) في هذه الأثناء للحصول على الكود المصدري.
إذا كنت تستخدم قاعدة التعليمات البرمجية هذه في عملك (أو أي جزء مهم منها، مثل التغييرات اللازمة لضبط SVD)، فيرجى الاستشهاد بمقالتنا:
@article{vanhoorick2024gcd,
title={Generative Camera Dolly: Extreme Monocular Dynamic Novel View Synthesis},
author={Van Hoorick, Basile and Wu, Rundi and Ozguroglu, Ege and Sargent, Kyle and Liu, Ruoshi and Tokmakov, Pavel and Dave, Achal and Zheng, Changxi and Vondrick, Carl},
journal={European Conference on Computer Vision (ECCV)},
year={2024}
}
أوصي أيضًا بالاستشهاد بورقة SVD الأصلية:
@article{blattmann2023stable,
title={Stable video diffusion: Scaling latent video diffusion models to large datasets},
author={Blattmann, Andreas and Dockhorn, Tim and Kulal, Sumith and Mendelevitch, Daniel and Kilian, Maciej and Lorenz, Dominik and Levi, Yam and English, Zion and Voleti, Vikram and Letts, Adam and others},
journal={arXiv preprint arXiv:2311.15127},
year={2023}
}
إذا كنت تستخدم إحدى مجموعات البيانات الخاصة بنا في عملك، فيرجى أيضًا ذكر المصدر المعني:
@article{greff2021kubric,
title = {Kubric: a scalable dataset generator},
author = {Klaus Greff and Francois Belletti and Lucas Beyer and Carl Doersch and Yilun Du and Daniel Duckworth and David J Fleet and Dan Gnanapragasam and Florian Golemo and Charles Herrmann and others},
booktitle = {IEEE Conference on Computer Vision and Pattern Recognition (CVPR)},
year = {2022},
}
@misc{parallel_domain,
title = {Parallel Domain},
year = {2024},
howpublished={url{https://paralleldomain.com/}}
}