Python 3.8 وconda، احصل على Conda CUDA إذا كنت تريد استخدام بيئة GPU
conda create -n $YOUR_PY38_ENV_NAME python=3.8
conda activate $YOUR_PY38_ENV_NAME
pip install -r requirements.txt
بالنسبة لمشروعنا، يكون الإدخال على شكل مصفوفة ذات شكل (B، T، C، H، W)، حيث يكون لكل إطار في المصفوفة حجم ثابت قدره 128x128. عدد الإطارات في كل فيديو هو 30، فينتج عنها شكل (B، 30، 3،128، 128). قبل استخدام هذا المشروع، قد تحتاج إلى معالجة بيانات الفيديو الخاصة بك مسبقًا وفقًا لذلك. في الكود، نقدم مثالًا لمصفوفة "city_bonn.npy" بشكل (46، 30، 3، 128، 128). تحتوي هذه المجموعة على 46 مقطع فيديو من مدينة بون في مجموعة بيانات سيتي سكيب. فيما يلي مثال على الأمر.
يمكنك التحكم في مقاطع الفيديو التي تريد معالجتها عن طريق اختيار قيم start_idx وend_idx. تأكد من أن النطاق المحدد لا يتجاوز قيمة B (عدد مقاطع الفيديو في مجموعة البيانات الخاصة بك).
python city_sender.py --data_npy "data_npy/city_bonn.npy" --output_path "your path" --start_idx 0 --end_idx 1
في قسم المعيار، نقدم رمزًا لحساب مقاييس الضغط لـ H.264 وH.265. يجب أن يكون الإدخال لهذا الرمز 30 إطارًا من إطارات الصور مقاس 128 × 128، ويفضل تسميتها بالتنسيق "frame%d."
يشبه هيكل المجلد لمجموعة البيانات
/your path/
- frame0.png
- frame1.png
- ...
- frame29.png
بالنسبة إلى project_str، فهذه مجرد سلسلة تستخدم لتمييز بياناتك. وهنا نستخدم "uvg."
python bench.py --dataset "your path" --output_path "your path" --project_str uvg
وفيما يتعلق بنقاط التفتيش، فإننا نستخدم مجموعتين منها. تتضمن إحدى المجموعات "checkpoint_900000.pt،" والذي يُستخدم لجزء إنشاء الفيديو. تحتوي المجموعة الأخرى على ست مجموعات من نقاط التفتيش، وسيتم استخدام نقاط التفتيش هذه لجزء ضغط الصورة، بما يتوافق مع ست صفات ضغط مختلفة.
يجب نقل الأوزان الستة إلى مجلد "نقاط التفتيش/الشبكة العصبية".
لامدا | جودة |
---|---|
0.45 | س5 |
0.15 | س4 |
0.032 | س3 |
0.015 | س2 |
0.008 | س1 |
0.004 | س0 |
يجب نقل هذا الوزن الفردي إلى مجلد "نقاط التفتيش/المرسل".
نقطة تفتيش نموذج الانتشار |
---|
نقطة تفتيش نموذج الانتشار |
تقارن الصور التالية أداء الضغط لنموذجنا مع معايير ضغط الفيديو التقليدية، H.264 وH.265. يمكن ملاحظة أن نموذجنا يتفوق عليهم بمعدلات بت منخفضة (bpp). تم حساب هذه البيانات في أول 24 مقطع فيديو من city_bonn.npy.