قرارات CVPR 2024 متاحة الآن على OpenReview!
ملاحظة 1: الجميع مدعوون لتقديم القضايا ومشاركة أوراق CVPR 2024 والمشاريع مفتوحة المصدر!
ملاحظة 2: للحصول على تفاصيل حول الأوراق من مؤتمرات السيرة الذاتية السابقة وغيرها من أوراق السيرة الذاتية عالية الجودة والمراجعات الشاملة، يرجى الاطلاع على: https://github.com/amusi/daily-paper-computer-vision
- ECCV2024
- سي في بي آر 2023
مرحبًا بك في مسح رمز الاستجابة السريعة ضوئيًا للانضمام إلى [CVer Academic Exchange Group]، وهو أكبر كوكب معرفة بالذكاء الاصطناعي للرؤية الحاسوبية! يتم تحديثها يوميًا، ومشاركة أحدث وأحدث المواد التعليمية في رؤية الكمبيوتر، والرسم بالذكاء الاصطناعي، ومعالجة الصور، والتعلم العميق، والقيادة الذاتية، والتصوير الطبي، وAIGC، ابدأ التعلم في أقرب وقت ممكن!
Scaffold-GS: غاوسيات ثلاثية الأبعاد منظمة للعرض المتكيف
GPS-Gaussian: رش غاوسي ثلاثي الأبعاد قابل للتعميم من أجل تجميع عرض الرواية البشرية في الوقت الفعلي
GaussianAvatar: نحو نمذجة واقعية للصورة الرمزية البشرية من فيديو واحد عبر Gaussians المتحركة ثلاثية الأبعاد
محرر Gaussian: تحرير ثلاثي الأبعاد سريع ويمكن التحكم فيه باستخدام تقنية Gaussian Splatting
غاوسيات ثلاثية الأبعاد قابلة للتشوه لإعادة بناء المشهد الديناميكي أحادي العين عالي الدقة
SC-GS: رش غاوسي يتم التحكم فيه بشكل متناثر للمشاهد الديناميكية القابلة للتحرير
ميزة Spacetime Gaussian Splatting لتوليف العرض الديناميكي في الوقت الفعلي
DNGaussian: تحسين مجالات الإشعاع الغاوسي ثلاثية الأبعاد ذات العرض المتفرق من خلال تطبيع العمق العالمي والمحلي
4D Gaussian Splatting لعرض المشهد الديناميكي في الوقت الحقيقي
GaussianDreamer: إنشاء سريع من النص إلى Gaussians ثلاثي الأبعاد من خلال سد نماذج الانتشار ثنائية وثلاثية الأبعاد
GaussianAvatar: نحو نمذجة واقعية للصورة الرمزية البشرية من فيديو واحد عبر Gaussians المتحركة ثلاثية الأبعاد
الصورة الرمزية المحاكاة في الوقت الحقيقي من أجهزة الاستشعار المثبتة على الرأس
RepViT: إعادة النظر في Mobile CNN من منظور ViT
TransNeXt: الإدراك البصري النقيري القوي لمحولات الرؤية
Alpha-CLIP: نموذج CLIP يركز على المكان الذي تريده
FairCLIP: تسخير العدالة في تعلم لغة الرؤية
EmbodiedScan: مجموعة تصورات ثلاثية الأبعاد شاملة ومتعددة الوسائط نحو الذكاء الاصطناعي المتجسد
MP5: نظام مجسد مفتوح متعدد الوسائط في لعبة Minecraft عبر الإدراك النشط
ليمون: تعلم علاقة التفاعل بين الإنسان والكائن ثلاثية الأبعاد من الصور ثنائية الأبعاد
دراسة تجريبية لقانون القياس للتعرف الضوئي على الحروف
ODM: نهج ما قبل التدريب لمحاذاة النص والصورة بشكل إضافي لاكتشاف نص المشهد وتحديد موقعه
PIE-NeRF؟: الديناميكا المرنة التفاعلية القائمة على الفيزياء مع NeRF
تتفوق أجهزة DETRs على YOLOs في اكتشاف الكائنات في الوقت الفعلي
Salience DETR: تعزيز محول الكشف من خلال تحسين تصفية البروز الهرمي
mPLUG-Owl2: نموذج لغة كبير متعدد الوسائط يُحدث ثورة من خلال التعاون بين الوسائط
التعلم بسياق الارتباط لماجستير إدارة الأعمال متعدد الوسائط
OPERA: تخفيف الهلوسة في نماذج اللغات الكبيرة متعددة الوسائط من خلال عقوبة الإفراط في الثقة والتخصيص بأثر رجعي
جعل النماذج الكبيرة متعددة الوسائط تفهم المطالبات البصرية العشوائية
اللون الوردي: الكشف عن قوة الفهم المرجعي للمواد متعددة الوسائط
Chat-UniVi: يعمل التمثيل المرئي الموحد على تمكين نماذج اللغات الكبيرة من خلال فهم الصور والفيديو
OneLLM: إطار واحد لمواءمة جميع الأساليب مع اللغة
VTimeLLM: تمكين LLM من فهم لحظات الفيديو
الرموز السحرية: حدد الرموز المتنوعة لإعادة تعريف الكائنات متعددة الوسائط
التعلم بالمراسلة الصاخبة لإعادة تحديد هوية الشخص من النص إلى الصورة
الورقة: https://arxiv.org/abs/2308.09911
الكود: https://github.com/QinYang79/RDE
InstanceDiffusion: التحكم على مستوى المثيل لإنشاء الصور
الصفحة الرئيسية: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
الورقة: https://arxiv.org/abs/2402.03290
الكود: https://github.com/frank-xwang/InstanceDiffusion
نماذج انتشار تقليل الضوضاء المتبقية
DeepCache: تسريع نماذج الانتشار مجانًا
DEADiff: نموذج نشر أسلوب فعال مع تمثيلات منفصلة
الصفحة الرئيسية: https://tianhao-qi.github.io/DEADiff/
الورقة: https://arxiv.org/abs/2403.06951
الكود: https://github.com/Tianhao-Qi/DEADiff_code
SVGDreamer: إنشاء SVG موجه بالنص مع نموذج الانتشار
InteractDiffusion: التحكم في التفاعل لنموذج نشر النص إلى الصورة
MMA-Diffusion: هجوم متعدد الوسائط على نماذج الانتشار
VMC: تخصيص حركة الفيديو باستخدام تكيف الانتباه الزمني لنماذج نشر النص إلى الفيديو
TransNeXt: الإدراك البصري النقيري القوي لمحولات الرؤية
RepViT: إعادة النظر في Mobile CNN من منظور ViT
تدريب عام وفعال للمحولات عبر توسيع الرمز المميز
PromptKD: التقطير الفوري غير الخاضع للرقابة لنماذج لغة الرؤية
FairCLIP: تسخير العدالة في تعلم لغة الرؤية
تتفوق أجهزة DETRs على YOLOs في اكتشاف الكائنات في الوقت الفعلي
تعزيز اكتشاف الكائنات من خلال التكيف مع نطاق Zero-Shot Day-Night
YOLO-World: اكتشاف كائنات المفردات المفتوحة في الوقت الفعلي
Salience DETR: تعزيز محول الكشف من خلال تحسين تصفية البروز الهرمي
تعلم عدم تجانس الشذوذ من أجل الكشف عن الشذوذ تحت الإشراف المفتوح
الخوض في توزيع المسار طويل الذيل لتتبع الكائنات المتعددة
أقوى وأقل وأكثر تفوقًا: تسخير نماذج مؤسسة الرؤية للتجزئة الدلالية المعممة للمجال
SED: جهاز فك ترميز بسيط للتجزئة الدلالية للمفردات المفتوحة
إعادة تضمين الميزة: نحو أداء على مستوى النموذج التأسيسي في علم الأمراض الحسابي
VoCo: إطار تعليمي متباين بسيط ولكنه فعال لتحليل الصور الطبية ثلاثية الأبعاد
ChAda-ViT: قناة الاهتمام التكيفي لتعلم التمثيل المشترك للصور المجهرية غير المتجانسة
UniPAD: نموذج عالمي للتدريب المسبق للقيادة الذاتية
Cam4DOcc: معيار للتنبؤ بالإشغال رباعي الأبعاد للكاميرا فقط في تطبيقات القيادة الذاتية
المحولات المستندة إلى الذاكرة لإدراك المشهد ثلاثي الأبعاد عبر الإنترنت
قم بدمج إكمال المشهد الدلالي ثلاثي الأبعاد باستخدام استعلامات المثيلات السياقية
مجموعة بيانات واسعة النطاق في العالم الحقيقي للإدراك التعاوني على جانب الطريق
دمج متكيف للعرض الفردي وعمق العرض المتعدد للقيادة الذاتية
تحليل مشهد المرور من خلال مجموعة بيانات TSP6K
PTT: محول نقطة المسار لاكتشاف الأجسام ثلاثية الأبعاد بكفاءة
UniMODE: الكشف الموحد للأشياء ثلاثية الأبعاد
تحرير واحد للجميع: تحرير الصور دفعة تفاعلية
MaskINT: تحرير الفيديو عبر محولات مقنعة غير انحدارية
الصفحة الرئيسية: https://maskint.github.io
الورقة: https://arxiv.org/abs/2312.12468
نماذج انتشار تقليل الضوضاء المتبقية
تعزيز استعادة الصور عبر الـ Priors من النماذج المدربة مسبقًا
SeD: أداة التمييز الدلالي للحصول على دقة فائقة للصورة
APISR: إنتاج الأنيمي ذو الدقة الفائقة المستوحاة من العالم الحقيقي
رمز الساعة الرملية لتقدير وضع الإنسان ثلاثي الأبعاد فعال قائم على المحولات
InstanceDiffusion: التحكم على مستوى المثيل لإنشاء الصور
الصفحة الرئيسية: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
الورقة: https://arxiv.org/abs/2402.03290
الكود: https://github.com/frank-xwang/InstanceDiffusion
ECLIPSE: عملية تحويل النص إلى صورة تتسم بالكفاءة في استخدام الموارد لأجيال الصور
الصفحة الرئيسية: https://Eclipse-t2i.vercel.app/
الورقة: https://arxiv.org/abs/2312.04655
الكود: https://github.com/Eclipse-t2i/Eclipse-inference
Instruct-Imagen: إنشاء الصور باستخدام تعليمات متعددة الوسائط
نماذج انتشار تقليل الضوضاء المتبقية
UniGS: التمثيل الموحد لتوليد الصور وتقسيمها
وحدة تحكم إنشاء مثيلات متعددة لتوليف النص إلى الصورة
SVGDreamer: إنشاء SVG موجه بالنص مع نموذج الانتشار
InteractDiffusion: التحكم في التفاعل لنموذج نشر النص إلى الصورة
راني: ترويض نشر النص إلى الصورة من أجل المتابعة السريعة الدقيقة
مدون الفيديو: اجعل حلمك مدونة فيديو
VBench: مجموعة المعايير الشاملة لنماذج توليد الفيديو
VMC: تخصيص حركة الفيديو باستخدام تكيف الانتباه الزمني لنماذج نشر النص إلى الفيديو
CityDreamer: النموذج التوليدي التركيبي للمدن غير المحدودة ثلاثية الأبعاد
LucidDreamer: نحو إنشاء تحويل نص إلى ثلاثي الأبعاد عالي الدقة عبر مطابقة نقاط الفاصل الزمني
MVBench: معيار فهم شامل للفيديو متعدد الوسائط
توحيد اللوغاريتم في تقطير المعرفة
التقطير الفعال لمجموعة البيانات عبر Minimax Diffusion
مجال ماركوف العصبي العشوائي لمطابقة الاستريو
HiKER-SGG: المعرفة الهرمية المعززة لإنشاء الرسم البياني للمشهد القوي
KVQ: تقييم جودة فيديو Kaleidscope لمقاطع الفيديو القصيرة
الصفحة الرئيسية: https://lixinustc.github.io/projects/KVQ/
الورقة: https://arxiv.org/abs/2402.07220
الكود: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024
مجموعة بيانات واسعة النطاق في العالم الحقيقي للإدراك التعاوني على جانب الطريق
تحليل مشهد المرور من خلال مجموعة بيانات TSP6K
التعرف على الكائنات كتنبؤ بالرمز التالي
ParameterNet: المعلمات هي كل ما تحتاجه للتدريب البصري المسبق على نطاق واسع لشبكات الهاتف المحمول
تكوين حركة بشرية سلسة مع ترميزات موضعية ممزوجة
LL3DA: ضبط التعليمات التفاعلية المرئية لفهم Omni-3D والتفكير والتخطيط
الصفحة الرئيسية: https://ll3da.github.io/
الورقة: https://arxiv.org/abs/2311.18651
الكود: https://github.com/Open3DA/LL3DA
CLOVA: مساعد مرئي ذو حلقة مغلقة مع استخدام الأداة وتحديثها
MoMask: النمذجة المقنعة التوليدية للحركات البشرية ثلاثية الأبعاد
أمودال الأرض الحقيقة والاكتمال في البرية
تحسين التأريض البصري من خلال التفسيرات المتسقة ذاتيًا
ImageNet-D: قياس قوة الشبكة العصبية على الكائنات الاصطناعية المنتشرة
التعلم من أنشطة المجموعة البشرية الاصطناعية
إطار فك تشفير الدماغ عبر الموضوع
التنبؤ المكثف للمهام المتعددة عبر مزيج من الخبراء ذوي الرتبة المنخفضة
التعلم المقارن للتحول المتوسط لاكتشاف الفئة المعممة