CVPR2024 Papers with Code - CVPR2024 Papers with Code تنزيل كود المصدر

CVPR2024 Papers with Code

بايثون

1.0.0

تنزيل

أوراق CVPR 2024 ومجموعة المشاريع مفتوحة المصدر (أوراق تحتوي على كود)

قرارات CVPR 2024 متاحة الآن على OpenReview!

ملاحظة 1: الجميع مدعوون لتقديم القضايا ومشاركة أوراق CVPR 2024 والمشاريع مفتوحة المصدر!
ملاحظة 2: للحصول على تفاصيل حول الأوراق من مؤتمرات السيرة الذاتية السابقة وغيرها من أوراق السيرة الذاتية عالية الجودة والمراجعات الشاملة، يرجى الاطلاع على: https://github.com/amusi/daily-paper-computer-vision
ECCV2024
سي في بي آر 2023

مرحبًا بك في مسح رمز الاستجابة السريعة ضوئيًا للانضمام إلى [CVer Academic Exchange Group]، وهو أكبر كوكب معرفة بالذكاء الاصطناعي للرؤية الحاسوبية! يتم تحديثها يوميًا، ومشاركة أحدث وأحدث المواد التعليمية في رؤية الكمبيوتر، والرسم بالذكاء الاصطناعي، ومعالجة الصور، والتعلم العميق، والقيادة الذاتية، والتصوير الطبي، وAIGC، ابدأ التعلم في أقرب وقت ممكن!

[دليل الورق مفتوح المصدر CVPR 2024]

3DGS (الرش الغاوسي)
الصور الرمزية
العمود الفقري
مقطع
ماي
الذكاء الاصطناعي المتجسد
جان
جي إن إن
نموذج اللغة الكبير متعدد الوسائط (MLLM)
نموذج اللغة الكبير (LLM)
ناس
التعرف الضوئي على الحروف
جبهة الخلاص الوطني
ديتر
اِسْتَدْعَى
نماذج الانتشار
ReID (إعادة تحديد الهوية)
توزيع الذيل الطويل (ذيل طويل)
محول الرؤية
لغة الرؤية
التعلم الخاضع للإشراف الذاتي
زيادة البيانات
كشف الكائنات
كشف الشذوذ
تتبع الهدف (التتبع البصري)
التقسيم الدلالي
تجزئة المثيل
تجزئة بانوبتيك
الصورة الطبية
تجزئة الصورة الطبية
تجزئة كائن الفيديو
تجزئة مثيل الفيديو
في اشارة الى تجزئة الصورة
تلميع الصورة
تحرير الصور
رؤية منخفضة المستوى
فائقة الدقة
تقليل الضوضاء
تشويش
القيادة الذاتية
3D نقطة السحابة
كشف الكائنات ثلاثية الأبعاد
التقسيم الدلالي ثلاثي الأبعاد
تتبع الكائنات ثلاثية الأبعاد
إكمال المشهد الدلالي ثلاثي الأبعاد (إكمال المشهد الدلالي ثلاثي الأبعاد)
تسجيل ثلاثي الأبعاد
تقدير وضعية الإنسان ثلاثية الأبعاد
تقدير الشبكة البشرية ثلاثي الأبعاد
الصورة الطبية
توليد الصور
توليد الفيديو
الجيل ثلاثي الأبعاد
فهم الفيديو
كشف العمل
كشف النص
تقطير المعرفة
التقليم النموذجي
ضغط الصور
إعادة الإعمار ثلاثية الأبعاد
تقدير العمق
التنبؤ بالمسار
كشف المسار
تعليق الصورة
الإجابة على الأسئلة البصرية
التعرف على لغة الإشارة
التنبؤ بالفيديو
رواية عرض التوليف
التعلم الصفري (التعلم بدون عينة)
مطابقة ستيريو
مطابقة الميزات
توليد الرسم البياني للمشهد
التمثيلات العصبية الضمنية
تقييم جودة الصورة
تقييم جودة الفيديو
مجموعات البيانات
مهام جديدة
آحرون

3DGS (الرش الغاوسي)

Scaffold-GS: غاوسيات ثلاثية الأبعاد منظمة للعرض المتكيف

الصفحة الرئيسية: https://city-super.github.io/scaffold-gs/
الورقة: https://arxiv.org/abs/2312.00109
الكود: https://github.com/city-super/Scaffold-GS

GPS-Gaussian: رش غاوسي ثلاثي الأبعاد قابل للتعميم من أجل تجميع عرض الرواية البشرية في الوقت الفعلي

الصفحة الرئيسية: https://shunyuanzheng.github.io/GPS-Gaussian
الورقة: https://arxiv.org/abs/2312.02155
الرمز: https://github.com/ShunyuanZheng/GPS-Gaussian

GaussianAvatar: نحو نمذجة واقعية للصورة الرمزية البشرية من فيديو واحد عبر Gaussians المتحركة ثلاثية الأبعاد

الورقة: https://arxiv.org/abs/2312.02134
الكود: https://github.com/huliangxiao/GaussianAvatar

محرر Gaussian: تحرير ثلاثي الأبعاد سريع ويمكن التحكم فيه باستخدام تقنية Gaussian Splatting

الورقة: https://arxiv.org/abs/2311.14521
الكود: https://github.com/buaacyw/GaussianEditor

غاوسيات ثلاثية الأبعاد قابلة للتشوه لإعادة بناء المشهد الديناميكي أحادي العين عالي الدقة

الصفحة الرئيسية: https://ingra14m.github.io/Deformable-Gaussians/
الورقة: https://arxiv.org/abs/2309.13101
الكود: https://github.com/ingra14m/Deformable-3D-Gaussians

SC-GS: رش غاوسي يتم التحكم فيه بشكل متناثر للمشاهد الديناميكية القابلة للتحرير

الصفحة الرئيسية: https://yihua7.github.io/SC-GS-web/
الورقة: https://arxiv.org/abs/2312.14937
الكود: https://github.com/yihua7/SC-GS

ميزة Spacetime Gaussian Splatting لتوليف العرض الديناميكي في الوقت الفعلي

الصفحة الرئيسية: https://oppo-us-research.github.io/SpacetimeGaussians-website/
الورقة: https://arxiv.org/abs/2312.16812
الكود: https://github.com/oppo-us-research/SpacetimeGaussians

DNGaussian: تحسين مجالات الإشعاع الغاوسي ثلاثية الأبعاد ذات العرض المتفرق من خلال تطبيع العمق العالمي والمحلي

الصفحة الرئيسية: https://fictionarry.github.io/DNGaussian/
الورقة: https://arxiv.org/abs/2403.06912
الكود: https://github.com/Fictionarry/DNGaussian

4D Gaussian Splatting لعرض المشهد الديناميكي في الوقت الحقيقي

الورقة: https://arxiv.org/abs/2310.08528
الكود: https://github.com/hustvl/4DGaussians

GaussianDreamer: إنشاء سريع من النص إلى Gaussians ثلاثي الأبعاد من خلال سد نماذج الانتشار ثنائية وثلاثية الأبعاد

الورقة: https://arxiv.org/abs/2310.08529
الكود: https://github.com/hustvl/GaussianDreamer

الصور الرمزية

GaussianAvatar: نحو نمذجة واقعية للصورة الرمزية البشرية من فيديو واحد عبر Gaussians المتحركة ثلاثية الأبعاد

الورقة: https://arxiv.org/abs/2312.02134
الكود: https://github.com/huliangxiao/GaussianAvatar

الصورة الرمزية المحاكاة في الوقت الحقيقي من أجهزة الاستشعار المثبتة على الرأس

الصفحة الرئيسية: https://www.zhengyiluo.com/SimXR/
الورقة: https://arxiv.org/abs/2403.06862

العمود الفقري

RepViT: إعادة النظر في Mobile CNN من منظور ViT

الورقة: https://arxiv.org/abs/2307.09283
الكود: https://github.com/THU-MIG/RepViT

TransNeXt: الإدراك البصري النقيري القوي لمحولات الرؤية

الورقة: https://arxiv.org/abs/2311.17132
الكود: https://github.com/DaiShiResearch/TransNeXt

مقطع

Alpha-CLIP: نموذج CLIP يركز على المكان الذي تريده

الورقة: https://arxiv.org/abs/2312.03818
الكود: https://github.com/SunzeY/AlphaCLIP

FairCLIP: تسخير العدالة في تعلم لغة الرؤية

الورقة: https://arxiv.org/abs/2403.19949
الكود: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP

ماي

الذكاء الاصطناعي المتجسد

EmbodiedScan: مجموعة تصورات ثلاثية الأبعاد شاملة ومتعددة الوسائط نحو الذكاء الاصطناعي المتجسد

الصفحة الرئيسية: https://tai-wang.github.io/embodiedscan/
الورقة: https://arxiv.org/abs/2312.16170
الكود: https://github.com/OpenRobotLab/EmbodiedScan

MP5: نظام مجسد مفتوح متعدد الوسائط في لعبة Minecraft عبر الإدراك النشط

الصفحة الرئيسية: https://iranqin.github.io/MP5.github.io/
الورقة: https://arxiv.org/abs/2312.07472
الكود: https://github.com/IranQin/MP5

ليمون: تعلم علاقة التفاعل بين الإنسان والكائن ثلاثية الأبعاد من الصور ثنائية الأبعاد

الورقة: https://arxiv.org/abs/2312.08963
الكود: https://github.com/yyvhang/lemon_3d

جان

التعرف الضوئي على الحروف

دراسة تجريبية لقانون القياس للتعرف الضوئي على الحروف

الورقة: https://arxiv.org/abs/2401.00028
الكود: https://github.com/large-ocr-model/large-ocr-model.github.io

ODM: نهج ما قبل التدريب لمحاذاة النص والصورة بشكل إضافي لاكتشاف نص المشهد وتحديد موقعه

الورقة: https://arxiv.org/abs/2403.00303
الكود: https://github.com/PriNing/ODM

جبهة الخلاص الوطني

PIE-NeRF؟: الديناميكا المرنة التفاعلية القائمة على الفيزياء مع NeRF

الورقة: https://arxiv.org/abs/2311.13099
الكود: https://github.com/FYTalon/pienerf/

ديتر

تتفوق أجهزة DETRs على YOLOs في اكتشاف الكائنات في الوقت الفعلي

الورقة: https://arxiv.org/abs/2304.08069
الكود: https://github.com/lyuwenyu/RT-DETR

Salience DETR: تعزيز محول الكشف من خلال تحسين تصفية البروز الهرمي

الورقة: https://arxiv.org/abs/2403.16131
الكود: https://github.com/xiuqhou/Salience-DETR

اِسْتَدْعَى

نموذج اللغة الكبير متعدد الوسائط (MLLM)

mPLUG-Owl2: نموذج لغة كبير متعدد الوسائط يُحدث ثورة من خلال التعاون بين الوسائط

الورقة: https://arxiv.org/abs/2311.04257
الكود: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2

التعلم بسياق الارتباط لماجستير إدارة الأعمال متعدد الوسائط

الورقة: https://arxiv.org/abs/2308.07891
الكود: https://github.com/isekai-portal/Link-Context-Learning/tree/main

OPERA: تخفيف الهلوسة في نماذج اللغات الكبيرة متعددة الوسائط من خلال عقوبة الإفراط في الثقة والتخصيص بأثر رجعي

الورقة: https://arxiv.org/abs/2311.17911
الكود: https://github.com/shikiw/OPERA

جعل النماذج الكبيرة متعددة الوسائط تفهم المطالبات البصرية العشوائية

الصفحة الرئيسية: https://vip-llava.github.io/
الورقة: https://arxiv.org/abs/2312.00784

اللون الوردي: الكشف عن قوة الفهم المرجعي للمواد متعددة الوسائط

الورقة: https://arxiv.org/abs/2310.00582
الكود: https://github.com/SY-Xuan/Pink

Chat-UniVi: يعمل التمثيل المرئي الموحد على تمكين نماذج اللغات الكبيرة من خلال فهم الصور والفيديو

الورقة: https://arxiv.org/abs/2311.08046
الكود: https://github.com/PKU-YuanGroup/Chat-UniVi

OneLLM: إطار واحد لمواءمة جميع الأساليب مع اللغة

الورقة: https://arxiv.org/abs/2312.03700
الكود: https://github.com/csuhan/OneLLM

نموذج اللغة الكبير (LLM)

VTimeLLM: تمكين LLM من فهم لحظات الفيديو

الورقة: https://arxiv.org/abs/2311.18445
الكود: https://github.com/huangb23/VTimeLLM

ناس

ReID (إعادة تحديد الهوية)

الرموز السحرية: حدد الرموز المتنوعة لإعادة تعريف الكائنات متعددة الوسائط

الورقة: https://arxiv.org/abs/2403.10254
الكود: https://github.com/924973292/EDITOR

التعلم بالمراسلة الصاخبة لإعادة تحديد هوية الشخص من النص إلى الصورة

الورقة: https://arxiv.org/abs/2308.09911
الكود: https://github.com/QinYang79/RDE

نماذج الانتشار

InstanceDiffusion: التحكم على مستوى المثيل لإنشاء الصور

الصفحة الرئيسية: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
الورقة: https://arxiv.org/abs/2402.03290
الكود: https://github.com/frank-xwang/InstanceDiffusion

نماذج انتشار تقليل الضوضاء المتبقية

الورقة: https://arxiv.org/abs/2308.13712
الكود: https://github.com/nachifur/RDDM

DeepCache: تسريع نماذج الانتشار مجانًا

الورقة: https://arxiv.org/abs/2312.00858
الكود: https://github.com/horseee/DeepCache

DEADiff: نموذج نشر أسلوب فعال مع تمثيلات منفصلة

الصفحة الرئيسية: https://tianhao-qi.github.io/DEADiff/
الورقة: https://arxiv.org/abs/2403.06951
الكود: https://github.com/Tianhao-Qi/DEADiff_code

SVGDreamer: إنشاء SVG موجه بالنص مع نموذج الانتشار

الورقة: https://arxiv.org/abs/2312.16476
الكود: https://ximinng.github.io/SVGDreamer-project/

InteractDiffusion: التحكم في التفاعل لنموذج نشر النص إلى الصورة

الورقة: https://arxiv.org/abs/2312.05849
الكود: https://github.com/jiuntian/interactdiffusion

MMA-Diffusion: هجوم متعدد الوسائط على نماذج الانتشار

الورقة: https://arxiv.org/abs/2311.17516
الكود: https://github.com/yangyijune/MMA-Diffusion

VMC: تخصيص حركة الفيديو باستخدام تكيف الانتباه الزمني لنماذج نشر النص إلى الفيديو

الصفحة الرئيسية: https://video-motion-customization.github.io/
الورقة: https://arxiv.org/abs/2312.00845
الكود: https://github.com/HyeonHo99/Video-Motion-Customization

محول الرؤية

TransNeXt: الإدراك البصري النقيري القوي لمحولات الرؤية

الورقة: https://arxiv.org/abs/2311.17132
الكود: https://github.com/DaiShiResearch/TransNeXt

RepViT: إعادة النظر في Mobile CNN من منظور ViT

الورقة: https://arxiv.org/abs/2307.09283
الكود: https://github.com/THU-MIG/RepViT

تدريب عام وفعال للمحولات عبر توسيع الرمز المميز

الورقة: https://arxiv.org/abs/2404.00672
الكود: https://github.com/Osilly/TokenExpansion

لغة الرؤية

PromptKD: التقطير الفوري غير الخاضع للرقابة لنماذج لغة الرؤية

الورقة: https://arxiv.org/abs/2403.02781
الكود: https://github.com/zhengli97/PromptKD

FairCLIP: تسخير العدالة في تعلم لغة الرؤية

الورقة: https://arxiv.org/abs/2403.19949
الكود: https://github.com/Harvard-Ophthalmology-AI-Lab/FairCLIP

كشف الكائنات

تتفوق أجهزة DETRs على YOLOs في اكتشاف الكائنات في الوقت الفعلي

الورقة: https://arxiv.org/abs/2304.08069
الكود: https://github.com/lyuwenyu/RT-DETR

تعزيز اكتشاف الكائنات من خلال التكيف مع نطاق Zero-Shot Day-Night

الورقة: https://arxiv.org/abs/2312.01220
الكود: https://github.com/ZPDu/Boosting-Object-Detection-with-Zero-Shot-Day-Night-Domain-Adaptation

YOLO-World: اكتشاف كائنات المفردات المفتوحة في الوقت الفعلي

الورقة: https://arxiv.org/abs/2401.17270
الكود: https://github.com/AILab-CVC/YOLO-World

Salience DETR: تعزيز محول الكشف من خلال تحسين تصفية البروز الهرمي

الورقة: https://arxiv.org/abs/2403.16131
الكود: https://github.com/xiuqhou/Salience-DETR

كشف الشذوذ

تعلم عدم تجانس الشذوذ من أجل الكشف عن الشذوذ تحت الإشراف المفتوح

الورقة: https://arxiv.org/abs/2310.12790
الكود: https://github.com/mala-lab/AHL

تتبع الكائنات

الخوض في توزيع المسار طويل الذيل لتتبع الكائنات المتعددة

الورقة: https://arxiv.org/abs/2403.04700
الكود: https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT

التقسيم الدلالي

أقوى وأقل وأكثر تفوقًا: تسخير نماذج مؤسسة الرؤية للتجزئة الدلالية المعممة للمجال

الورقة: https://arxiv.org/abs/2312.04265
الكود: https://github.com/w1oves/Rein

SED: جهاز فك ترميز بسيط للتجزئة الدلالية للمفردات المفتوحة

الورقة: https://arxiv.org/abs/2311.15537
الكود: https://github.com/xb534/SED

الصورة الطبية

إعادة تضمين الميزة: نحو أداء على مستوى النموذج التأسيسي في علم الأمراض الحسابي

الورقة: https://arxiv.org/abs/2402.17228
الكود: https://github.com/DearCaat/RRT-MIL

VoCo: إطار تعليمي متباين بسيط ولكنه فعال لتحليل الصور الطبية ثلاثية الأبعاد

الورقة: https://arxiv.org/abs/2402.17300
الكود: https://github.com/Luffy03/VoCo

ChAda-ViT: قناة الاهتمام التكيفي لتعلم التمثيل المشترك للصور المجهرية غير المتجانسة

الورقة: https://arxiv.org/abs/2311.15264
الكود: https://github.com/nicoboou/chada_vit

تجزئة الصورة الطبية

القيادة الذاتية

UniPAD: نموذج عالمي للتدريب المسبق للقيادة الذاتية

الورقة: https://arxiv.org/abs/2310.08370
الكود: https://github.com/Nightmare-n/UniPAD

Cam4DOcc: معيار للتنبؤ بالإشغال رباعي الأبعاد للكاميرا فقط في تطبيقات القيادة الذاتية

الورقة: https://arxiv.org/abs/2311.17663
الكود: https://github.com/haomo-ai/Cam4DOcc

المحولات المستندة إلى الذاكرة لإدراك المشهد ثلاثي الأبعاد عبر الإنترنت

الورقة: https://arxiv.org/abs/2403.06974
الكود: https://github.com/xuxw98/Online3D

قم بدمج إكمال المشهد الدلالي ثلاثي الأبعاد باستخدام استعلامات المثيلات السياقية

الورقة: https://arxiv.org/abs/2306.15670
الكود: https://github.com/hustvl/Symphonies

مجموعة بيانات واسعة النطاق في العالم الحقيقي للإدراك التعاوني على جانب الطريق

الورقة: https://arxiv.org/abs/2403.10145
الكود: https://github.com/AIR-THU/DAIR-RCooper

دمج متكيف للعرض الفردي وعمق العرض المتعدد للقيادة الذاتية

الورقة: https://arxiv.org/abs/2403.07535
الكود: https://github.com/Junda24/AFNet

تحليل مشهد المرور من خلال مجموعة بيانات TSP6K

الورقة: https://arxiv.org/pdf/2303.02835.pdf
الكود: https://github.com/PengtaoJiang/TSP6K

سحابة نقطية ثلاثية الأبعاد (3D-Point-Cloud)

كشف الكائنات ثلاثية الأبعاد

PTT: محول نقطة المسار لاكتشاف الأجسام ثلاثية الأبعاد بكفاءة

الورقة: https://arxiv.org/abs/2312.08371
الكود: https://github.com/kuanchihhuang/PTT

UniMODE: الكشف الموحد للأشياء ثلاثية الأبعاد

الورقة: https://arxiv.org/abs/2402.18573

التقسيم الدلالي ثلاثي الأبعاد

تحرير الصور

تحرير واحد للجميع: تحرير الصور دفعة تفاعلية

الصفحة الرئيسية: https://thaoshibe.github.io/edit-one-for-all
الورقة: https://arxiv.org/abs/2401.10219
الكود: https://github.com/thaoshibe/edit-one-for-all

تحرير الفيديو

MaskINT: تحرير الفيديو عبر محولات مقنعة غير انحدارية

الصفحة الرئيسية: https://maskint.github.io
الورقة: https://arxiv.org/abs/2312.12468

رؤية منخفضة المستوى

نماذج انتشار تقليل الضوضاء المتبقية

الورقة: https://arxiv.org/abs/2308.13712
الكود: https://github.com/nachifur/RDDM

تعزيز استعادة الصور عبر الـ Priors من النماذج المدربة مسبقًا

الورقة: https://arxiv.org/abs/2403.06793

فائقة الدقة

SeD: أداة التمييز الدلالي للحصول على دقة فائقة للصورة

الورقة: https://arxiv.org/abs/2402.19387
الكود: https://github.com/lbc12345/SeD

APISR: إنتاج الأنيمي ذو الدقة الفائقة المستوحاة من العالم الحقيقي

الورقة: https://arxiv.org/abs/2403.01598
الكود: https://github.com/Kiteretsu77/APISR

تقليل الضوضاء

تقليل الضوضاء الصورة

تقدير وضعية الإنسان ثلاثية الأبعاد

رمز الساعة الرملية لتقدير وضع الإنسان ثلاثي الأبعاد فعال قائم على المحولات

الورقة: https://arxiv.org/abs/2311.12028
الكود: https://github.com/NationalGAILab/HoT

توليد الصور

InstanceDiffusion: التحكم على مستوى المثيل لإنشاء الصور

الصفحة الرئيسية: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
الورقة: https://arxiv.org/abs/2402.03290
الكود: https://github.com/frank-xwang/InstanceDiffusion

ECLIPSE: عملية تحويل النص إلى صورة تتسم بالكفاءة في استخدام الموارد لأجيال الصور

الصفحة الرئيسية: https://Eclipse-t2i.vercel.app/
الورقة: https://arxiv.org/abs/2312.04655
الكود: https://github.com/Eclipse-t2i/Eclipse-inference

Instruct-Imagen: إنشاء الصور باستخدام تعليمات متعددة الوسائط

الورقة: https://arxiv.org/abs/2401.01952

نماذج انتشار تقليل الضوضاء المتبقية

الورقة: https://arxiv.org/abs/2308.13712
الكود: https://github.com/nachifur/RDDM

UniGS: التمثيل الموحد لتوليد الصور وتقسيمها

الورقة: https://arxiv.org/abs/2312.01985

وحدة تحكم إنشاء مثيلات متعددة لتوليف النص إلى الصورة

الورقة: https://arxiv.org/abs/2402.05408
الكود: https://github.com/limuloo/migc

SVGDreamer: إنشاء SVG موجه بالنص مع نموذج الانتشار

الورقة: https://arxiv.org/abs/2312.16476
الكود: https://ximinng.github.io/SVGDreamer-project/

InteractDiffusion: التحكم في التفاعل لنموذج نشر النص إلى الصورة

الورقة: https://arxiv.org/abs/2312.05849
الكود: https://github.com/jiuntian/interactdiffusion

راني: ترويض نشر النص إلى الصورة من أجل المتابعة السريعة الدقيقة

الورقة: https://arxiv.org/abs/2311.17002
الكود: https://github.com/ali-vilab/Ranni

توليد الفيديو

مدون الفيديو: اجعل حلمك مدونة فيديو

الورقة: https://arxiv.org/abs/2401.09414
الكود: https://github.com/Vchitect/Vlogger

VBench: مجموعة المعايير الشاملة لنماذج توليد الفيديو

الصفحة الرئيسية: https://vchitect.github.io/VBench-project/
الورقة: https://arxiv.org/abs/2311.17982
الكود: https://github.com/Vchitect/VBench

VMC: تخصيص حركة الفيديو باستخدام تكيف الانتباه الزمني لنماذج نشر النص إلى الفيديو

الصفحة الرئيسية: https://video-motion-customization.github.io/
الورقة: https://arxiv.org/abs/2312.00845
الكود: https://github.com/HyeonHo99/Video-Motion-Customization

جيل ثلاثي الأبعاد

CityDreamer: النموذج التوليدي التركيبي للمدن غير المحدودة ثلاثية الأبعاد

الصفحة الرئيسية: https://haozhexie.com/project/city-dreamer/
الورقة: https://arxiv.org/abs/2309.00610
الكود: https://github.com/hzxie/city-dreamer

LucidDreamer: نحو إنشاء تحويل نص إلى ثلاثي الأبعاد عالي الدقة عبر مطابقة نقاط الفاصل الزمني

الورقة: https://arxiv.org/abs/2311.11284
الكود: https://github.com/EnVision-Research/LucidDreamer

فهم الفيديو

MVBench: معيار فهم شامل للفيديو متعدد الوسائط

الورقة: https://arxiv.org/abs/2311.17005
الكود: https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2

تقطير المعرفة

توحيد اللوغاريتم في تقطير المعرفة

الورقة: https://arxiv.org/abs/2403.01427
الكود: https://github.com/sunshangquan/logit-standardization-KD

التقطير الفعال لمجموعة البيانات عبر Minimax Diffusion

الورقة: https://arxiv.org/abs/2311.15529
الكود: https://github.com/vimar-gu/MinimaxDiffusion

مطابقة ستيريو

مجال ماركوف العصبي العشوائي لمطابقة الاستريو

الورقة: https://arxiv.org/abs/2403.11193
الكود: https://github.com/aeolusguan/NMRF

توليد الرسم البياني للمشهد

HiKER-SGG: المعرفة الهرمية المعززة لإنشاء الرسم البياني للمشهد القوي

الصفحة الرئيسية: https://zhangce01.github.io/HiKER-SGG/
الورقة: https://arxiv.org/abs/2403.12033
الكود: https://github.com/zhangce01/HiKER-SGG

تقييم جودة الفيديو

KVQ: تقييم جودة فيديو Kaleidscope لمقاطع الفيديو القصيرة

الصفحة الرئيسية: https://lixinustc.github.io/projects/KVQ/
الورقة: https://arxiv.org/abs/2402.07220
الكود: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024

مجموعات البيانات

مجموعة بيانات واسعة النطاق في العالم الحقيقي للإدراك التعاوني على جانب الطريق

الورقة: https://arxiv.org/abs/2403.10145
الكود: https://github.com/AIR-THU/DAIR-RCooper

تحليل مشهد المرور من خلال مجموعة بيانات TSP6K

الورقة: https://arxiv.org/pdf/2303.02835.pdf
الكود: https://github.com/PengtaoJiang/TSP6K

آحرون

التعرف على الكائنات كتنبؤ بالرمز التالي

الورقة: https://arxiv.org/abs/2312.02142
الكود: https://github.com/kaiyuyue/nxtp

ParameterNet: المعلمات هي كل ما تحتاجه للتدريب البصري المسبق على نطاق واسع لشبكات الهاتف المحمول

الورقة: https://arxiv.org/abs/2306.14525
الكود: https://parameternet.github.io/

تكوين حركة بشرية سلسة مع ترميزات موضعية ممزوجة

الورقة: https://arxiv.org/abs/2402.15509
الكود: https://github.com/BarqueroGerman/FlowMDM

LL3DA: ضبط التعليمات التفاعلية المرئية لفهم Omni-3D والتفكير والتخطيط

الصفحة الرئيسية: https://ll3da.github.io/
الورقة: https://arxiv.org/abs/2311.18651
الكود: https://github.com/Open3DA/LL3DA

CLOVA: مساعد مرئي ذو حلقة مغلقة مع استخدام الأداة وتحديثها

الصفحة الرئيسية: https://clova-tool.github.io/
الورقة: https://arxiv.org/abs/2312.10908

MoMask: النمذجة المقنعة التوليدية للحركات البشرية ثلاثية الأبعاد

الورقة: https://arxiv.org/abs/2312.00063
الكود: https://github.com/EricGuo5513/momask-codes

أمودال الأرض الحقيقة والاكتمال في البرية

الصفحة الرئيسية: https://www.robots.ox.ac.uk/~vgg/research/amodal/
الورقة: https://arxiv.org/abs/2312.17247
الكود: https://github.com/Championchess/Amodal-Completion-in-the-Wild

تحسين التأريض البصري من خلال التفسيرات المتسقة ذاتيًا

الورقة: https://arxiv.org/abs/2312.04554
الكود: https://github.com/uvavision/SelfEQ

ImageNet-D: قياس قوة الشبكة العصبية على الكائنات الاصطناعية المنتشرة

الصفحة الرئيسية: https://chenshuang-zhang.github.io/imagenet_d/
الورقة: https://arxiv.org/abs/2403.18775
الكود: https://github.com/chenshuang-zhang/imagenet_d

التعلم من أنشطة المجموعة البشرية الاصطناعية

الصفحة الرئيسية: https://cjerry1243.github.io/M3Act/
ورقة https://arxiv.org/abs/2306.16772
الكود: https://github.com/cjerry1243/M3Act

إطار فك تشفير الدماغ عبر الموضوع

الصفحة الرئيسية: https://littlepure2333.github.io/MindBridge/
الورقة: https://arxiv.org/abs/2404.07850
الكود: https://github.com/littlepure2333/MindBridge

التنبؤ المكثف للمهام المتعددة عبر مزيج من الخبراء ذوي الرتبة المنخفضة

الورقة: https://arxiv.org/abs/2403.17749
الكود: https://github.com/YuqiYang213/MLoRE

التعلم المقارن للتحول المتوسط لاكتشاف الفئة المعممة

الصفحة الرئيسية: https://postech-cvlab.github.io/cms/
الورقة: https://arxiv.org/abs/2404.09451
الكود: https://github.com/sua-choi/CMS

يوسع

معلومات إضافية

الإصدار 1.0.0
النوع بايثون
وقت التحديث 2024-12-21
الحجم 117.95KB
من Github

تطبيقات ذات صلة

نوصي لك

chat.petals.dev

شفرة المصدر الأخرى

1.0.0
GPT Prompt Templates

شفرة المصدر الأخرى

1.0.0
GPTyped

شفرة المصدر الأخرى

GPTyped 1.0.5
Nuitka

بايثون

1.0.0
Google Blog Converters (محول بيانات المدونة)

بايثون

1.0 R54
azure storage python

بايثون

v2.1.0
waymo open dataset

شفرة المصدر الأخرى

December 2023 Update
wp functions

فئات أخرى

1.0.0
termwind

فئات أخرى

v2.3.0

أخبار ذات صلة الكل