الرابط: https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA كود الاستخراج: vwkx
تحديث: 2022/03/02 تحديث بعض تفاسير المقالات
MHFormer: محول متعدد الفرضيات لتقدير وضعية الإنسان ثلاثية الأبعاد
الورقة: https://arxiv.org/pdf/2111.12707.pdf
الكود: https://github.com/Vegetebird/MHFormer
تهدف هذه الورقة إلى استخدام نموذج تلافيفي كامل للتعبير بشكل موحد عن الأشياء والبيئات المحيطة والتنبؤ بها، وبالتالي تحقيق تجزئة بانورامية دقيقة وفعالة. على وجه التحديد، تقترح هذه المقالة مولد نواة تلافيفية يقوم بتشفير المعلومات الدلالية لكل كائن وكل نوع من البيئة في نواة تلافيفية مختلفة، ويجمعها مع خرائط ميزات عالية الدقة لإخراج نتائج التجزئة لكل مقدمة وخلفية مباشرة. من خلال هذا النهج، يمكن الحفاظ على الفروق الفردية والاتساق الدلالي للأشياء والبيئات على التوالي. تحقق هذه الطريقة أحدث النتائج من حيث السرعة والدقة في مجموعات بيانات التجزئة البانورامية المتعددة. الكلمات المفتاحية: التعبير الموحد، الالتواء الديناميكي، التجزئة البانوبتيكية.
ورقة عن طريق الفم
يقترح FFB6D إطارًا تعليميًا لتمثيل RGBD للاندماج ثنائي الاتجاه للشبكة كامل التدفق ويطبقه على مشكلة تقدير الوضع 6D. لقد وجدنا أن طرق تعلم التمثيل الحالية تفشل في الاستفادة الجيدة من مصدري البيانات التكميليين لمعلومات المظهر في RGB والمعلومات الهندسية في الخرائط العميقة (السحب النقطية).
ولتحقيق هذه الغاية، قمنا بتصميم وحدة دمج كثيفة ثنائية الاتجاه وتطبيقها على كل طبقة تشفير وفك تشفير لشبكة CNN والشبكة السحابية النقطية. تسمح آلية الدمج ثنائية الاتجاه ذات التدفق الكامل للشبكتين بالاستفادة الكاملة من المعلومات التكميلية المحلية والعالمية المستخرجة من بعضها البعض، وبالتالي الحصول على تمثيل أفضل لمهام التنبؤ النهائية. بالإضافة إلى ذلك، فيما يتعلق باختيار تمثيل المخرجات، قمنا بتصميم خوارزمية اختيار النقاط الرئيسية SIFT-FPS استنادًا إلى المعلومات الهندسية والهندسية للعنصر، مما يبسط صعوبة تحديد الشبكة للنقاط الرئيسية ويحسن دقة الوضع. تحقق طريقتنا تحسينات كبيرة على معايير متعددة. ويمكن تطبيق هذه الشبكة الأساسية لتعلم تمثيل RGBD على المزيد من المهام المرئية باستخدام RGBD كمدخل من خلال شبكات التنبؤ المختلفة المتتالية. الكلمات الرئيسية: تعلم تمثيل RGBD، رؤية ثلاثية الأبعاد، تقدير وضعية 6D PDF: https://arxiv.org/abs/2103.02242 الكود: https://github.com/ethnhe/FFB6D
العلم والتكنولوجيا يتصاعدان دائمًا إلى الأعلى. لقد "أحيينا" بنية الشبكة العصبية التلافيفية البسيطة أحادية القناة بأسلوب VGG، مع تلافيف 3x3 حتى النهاية، وقد وصلت إلى مستوى SOTA في السرعة والأداء، وتتمتع بمعدل دقة يزيد عن 80% إيماج نت.
من أجل التغلب على صعوبة تدريب بنية نمط VGG، نستخدم إعادة المعلمة الهيكلية لإنشاء تعيين الهوية وفرع الالتواء 1x1 في النموذج أثناء التدريب، ثم دمجهما بشكل مكافئ في 3x3 بعد التدريب، وبالتالي فإن النموذج يحتوي فقط على التفاف 3x3 أثناء الاستدلال. لا تحتوي هذه البنية على أي هياكل متفرعة، لذا فهي متوازية للغاية وسريعة جدًا. وبما أن الجزء الرئيسي يحتوي على مشغل واحد فقط، "3x3-ReLU"، فهو مناسب بشكل خاص للأجهزة المخصصة. الكلمات المفتاحية: إعادة المعلمة الهيكلية، العمارة المبسطة، النموذج الفعال https://arxiv.org/abs/2101.03697
تقترح هذه المقالة عملية إلتواء جديدة — الالتفاف الديناميكي المدرك للمنطقة (DRConv: الالتفاف الديناميكي المدرك للمنطقة)، والتي يمكنها تخصيص نواة الالتواء المخصصة لمناطق مستوية مختلفة بناءً على تشابه الميزات. بالمقارنة مع التلافيف التقليدية، فإن طريقة الالتفاف هذه تعزز بشكل كبير قدرة النمذجة لتنوع المعلومات الدلالية للصورة. يمكن أن تزيد الطبقات التلافيفية القياسية من عدد حبات التلافيف لاستخراج المزيد من العناصر المرئية، ولكنها ستؤدي إلى تكاليف حسابية أعلى. يستخدم DRConv مُخصصًا قابلاً للتعلم لنقل نواة الالتواء المتزايدة تدريجيًا إلى الأبعاد المستوية، الأمر الذي لا يحسن قدرة تمثيل الالتفاف فحسب، بل يحافظ أيضًا على التكلفة الحسابية وثبات الترجمة.
DRConv هي طريقة فعالة وأنيقة للتعامل مع التوزيع المعقد والمتنوع للمعلومات الدلالية، ويمكنها استبدال التلافيف القياسية في أي شبكة موجودة بخصائص التوصيل والتشغيل الخاصة بها، كما أنها تتمتع بتحسينات كبيرة في الأداء للشبكات خفيفة الوزن. تقوم هذه الورقة بتقييم DRConv على نماذج مختلفة (سلسلة MobileNet، وShuffleNetV2، وما إلى ذلك) والمهام (التصنيف، والتعرف على الوجوه، والكشف والتجزئة). ، تحسن بنسبة 6.3٪ عن خط الأساس. https://arxiv.org/abs/2003.12243
نقترح وحدة أساسية للشبكة التلافيفية (DBB) لإثراء البنية المجهرية للنموذج أثناء التدريب دون تغيير بنيته الكلية، وبالتالي تحسين أدائه. يمكن تحويل هذه الوحدة بشكل مكافئ إلى التفاف من خلال إعادة المعلمات الهيكلية بعد التدريب، وبالتالي عدم تقديم أي حمل إضافي للاستدلال. صورة
لقد قمنا بتلخيص ستة هياكل يمكن تحويلها بشكل متساوٍ، بما في ذلك الالتواء المستمر 1x1-KxK، والتجميع المتوسط، وما إلى ذلك، واستخدمنا هذه التحويلات الستة لإعطاء مثيل DBB تمثيلي مشابه لـ Inception، والذي يمكن استخدامه في أبنية مختلفة تحسينات الأداء. لقد أكدنا من خلال التجارب أن "عدم الخطية أثناء التدريب" (لكنها خطية أثناء الاستدلال، مثل BN) و"الروابط المتنوعة" (على سبيل المثال، 1x1+3x3 أفضل من 3x3+3x3) هي مفاتيح فعالية DBB . الكلمات المفتاحية: إعادة هيكلة المعلمات، عدم وجود تفكير زائد، تحسين غير مؤلم
ركزت معظم الأعمال السابقة على أداء عينات الفئات الصغيرة على حساب أداء عينات الفئات الكبيرة. تقترح هذه الورقة كاشف هدف عينة من فئة صغيرة دون نسيان التأثير، والذي يمكن أن يحقق أداء أفضل لفئة عينة من فئة صغيرة دون فقدان أداء فئات عينة من فئة كبيرة. في هذا البحث، نجد أن أجهزة الكشف المدربة مسبقًا نادرًا ما تنتج تنبؤات إيجابية خاطئة على الفئات غير المرئية، ونجد أيضًا أن RPN ليس مكونًا مثاليًا حياديًا للطبقة. بناءً على هاتين النتيجتين، قمنا بتصميم هيكلين بسيطين وفعالين، Re-detector وBias-Balanced RPN، اللذين يمكنهما تحقيق اكتشاف هدف عينة صغيرة دون نسيان التأثير عن طريق إضافة عدد صغير فقط من المعلمات ووقت الاستدلال. الكلمات المفتاحية: التعلم بعينة صغيرة، اكتشاف الأهداف
تقترح هذه الورقة إطارًا موحدًا للتعامل مع مهام التعرف البصري التي تحتوي على توزيعات بيانات طويلة الذيل. لقد أجرينا أولاً تحليلاً تجريبيًا للطرق الحالية المكونة من مرحلتين للتعامل مع المشكلات ذات الذيل الطويل، واكتشفنا اختناقات الأداء الرئيسية للطرق الحالية. استنادًا إلى التحليل التجريبي، نقترح استراتيجية محاذاة التوزيع لحل مهام الرؤية طويلة المدى بشكل منهجي.
تم تصميم الإطار بناءً على طريقة من مرحلتين، في المرحلة الأولى، يتم استخدام استراتيجية أخذ العينات المتوازنة لتعلم تمثيل الميزات (تعلم التمثيل). في المرحلة الثانية، قمنا أولاً بتصميم وظيفة محاذاة مدركة للإدخال لتصحيح درجة بيانات الإدخال. في الوقت نفسه، من أجل تقديم توزيع مجموعة البيانات مسبقًا، قمنا بتصميم مخطط إعادة وزن عام للتعامل مع سيناريوهات المهام المرئية المختلفة مثل تصنيف الصور والتجزئة الدلالية واكتشاف الكائنات وتجزئة المثيلات. لقد تحققنا من طريقتنا في أربع مهام وحققنا تحسينات كبيرة في الأداء في كل مهمة. الكلمات المفتاحية: تصنيف الصور، التجزئة الدلالية، اكتشاف الكائنات، تجزئة المثيلات
ولأول مرة، تزيل هذه الورقة المعالجة اللاحقة لـ NMS (القمع غير الأقصى) على كاشف الهدف التلافيفي بالكامل وتحقق تدريبًا شاملاً. لقد قمنا بتحليل طرق اكتشاف الكائنات السائدة في مرحلة واحدة ووجدنا أن استراتيجية تخصيص الملصقات التقليدية من واحد إلى متعدد هي المفتاح لهذه الأساليب التي تعتمد على NMS، وبالتالي اقترحنا استراتيجية تخصيص العلامات من واحد إلى واحد مدركة للتنبؤ. بالإضافة إلى ذلك، من أجل تحسين أداء تعيين العلامات الفردية، نقترح وحدات تعمل على تحسين قدرات تمثيل الميزات ووظائف الخسارة المساعدة التي تعمل على تسريع تقارب النماذج. تحقق طريقتنا أداءً مشابهًا لطرق اكتشاف الكائنات ذات المرحلة الواحدة بدون NMS. في المشاهد الكثيفة، يتجاوز استدعاء طريقتنا الحد الأعلى النظري لطرق اكتشاف الكائنات التي تعتمد على NMS. الكلمات المفتاحية: الكشف الشامل، تعيين التسمية، الشبكة التلافيفية بالكامل https://arxiv.org/abs/2012.03544
نقترح استراتيجية مطابقة عينة الكشف عن الهدف بناءً على نظرية الإرسال الأمثل، والتي تستخدم المعلومات العالمية للعثور على نتائج مطابقة العينة المثالية، بالمقارنة مع تقنية مطابقة العينات الحالية، فهي تتمتع بالمزايا التالية: 1). يمكن أن تساعد نتائج المطابقة المثالية عالميًا في تدريب الكاشف بطريقة مستقرة وفعالة، وفي النهاية تحقيق أداء الكشف الأمثل في مجموعة بيانات COCO. 2). مجموعة واسعة من السيناريوهات القابلة للتطبيق. تحتاج خوارزميات الكشف عن الهدف الحالية إلى إعادة تصميم الاستراتيجيات أو ضبط المعلمات عند مواجهة مشاهد معقدة مثل الأهداف الكثيفة أو الانسداد الشديد، ويتضمن نموذج الإرسال الأمثل عملية إيجاد الحل الأمثل في عملية النمذجة العالمية، دون أي تعديلات إضافية، يمكنه تحقيق الحالة -أداء متطور في مشاهد مختلفة ذات أهداف كثيفة وتغطية شديدة، وله إمكانات تطبيق كبيرة. الكلمات المفتاحية: كشف الهدف، الإرسال الأمثل، استراتيجية مطابقة العينات
نظرًا لأن تعيين التسمية للكاشف أحادي المرحلة ثابت ولا يأخذ في الاعتبار المعلومات العامة لإطار الكائن، فإننا نقترح كاشف كائن يعتمد على أخذ عينات من توزيع كتلة الكائن. في هذه المقالة، نقترح وحدة ترميز توزيع الجودة QDE ووحدة أخذ عينات توزيع الجودة QDS من خلال استخراج الميزات الإقليمية للإطار المستهدف ونمذجة توزيع الجودة لإطار التنبؤ بناءً على نموذج الخليط الغوسي، يمكننا تحديد ديناميكيًا. القيمة الإيجابية لإطار الكشف لتخصيص العينة السلبية. تتضمن هذه الطريقة فقط تخصيص التسمية في مرحلة التدريب، ويمكنها تحقيق أفضل النتائج الحالية على مجموعات بيانات متعددة مثل COCO. الكلمات المفتاحية: تسمية التسمية
تهدف طريقة FSCE المقترحة في الورقة إلى حل مشكلة اكتشاف كائن العينة الصغيرة من منظور تحسين تمثيل الميزات. في مهام الكشف عن الكائنات ذات العينات الصغيرة، يكون عدد العينات المستهدفة محدودًا، وغالبًا ما يكون للتصنيف الصحيح للعينات المستهدفة تأثير كبير على الأداء النهائي. تستخدم FSCE فكرة التعلم التقابلي لتشفير الإطارات المرشحة ذات الصلة وتحسين تمثيل ميزاتها، وتعزيز الاكتناز داخل الطبقة وتنافر الميزات بين الفئات. وقد تم تحسين الطريقة النهائية بشكل فعال في مجموعات بيانات COCO وPascal VOC المشتركة . الكلمات المفتاحية: عينة صغيرة للكشف عن الأهداف، رابط ورقة التعلم المقارنة: https://arxiv.org/abs/2103.05950
تقوم خوارزمية NAS السائدة الحالية بإجراء بحث عن النماذج من خلال أداء التنبؤ للشبكة الفرعية على مجموعة التحقق، ومع ذلك، في ظل آلية مشاركة المعلمات، يوجد فرق كبير بين أداء التنبؤ في مجموعة التحقق والأداء الحقيقي للنموذج. لأول مرة، كسرنا نموذج تقييم النموذج بناءً على أداء التنبؤ، وقمنا بتقييم الشبكات الفرعية من منظور سرعة تقارب النموذج، وافترضنا أنه كلما تقارب النموذج بشكل أسرع، كلما كان أداء التنبؤ المقابل له أعلى.
استنادًا إلى إطار عمل تقارب النموذج، وجدنا أن تقارب النموذج لا علاقة له بالتسميات الحقيقية للصور، واقترح أيضًا نموذج NAS-RLNAS جديدًا يستخدم تسميات عشوائية للتدريب على الشبكة الفائقة. تم التحقق من RLNAS في مجموعات بيانات متعددة (NAS-Bench-201، ImageNet) ومساحات بحث متعددة (DARTS، تشبه MobileNet). تظهر النتائج التجريبية أن RLNAS يمكنها تحقيق أداء NAS الحالي باستخدام الهياكل التي تم البحث عنها عن تسميات عشوائية فقط. مستوى سوتا. يبدو نظام RLNAS غير بديهي في البداية، لكن نتائجه الجيدة بشكل غير متوقع توفر أساسًا أقوى لمجتمع NAS وتزيد من إلهام التفكير حول طبيعة NAS. الكلمات المفتاحية: بحث في بنية الشبكة العصبية، افتراض تقارب النموذج، التسمية العشوائية https://arxiv.org/abs/2101.11834
تستخدم خوارزميات تقدير وضعية الإنسان الحالية انحدار الخريطة الحرارية للحصول على النقاط المشتركة النهائية. تستخدم هذه الطرق عادةً نواة غاوسية ثنائية الأبعاد ذات انحراف معياري ثابت تغطي جميع نقاط المفاتيح الهيكلية لإنشاء خريطة حرارية حقيقية، واستخدام الخريطة الحرارية الحقيقية للإشراف على النموذج. نظرًا لأن الخرائط الحرارية الحقيقية للنقاط المشتركة لأشخاص مختلفين يتم إنشاؤها باستخدام نفس النواة الغوسية، فإن هذه الطريقة لا تأخذ في الاعتبار اختلافات المقياس بين الأشخاص المختلفين، مما قد يسبب غموضًا في التسمية ويؤثر على تأثير النموذج.
تقترح هذه الورقة انحدارًا لخريطة الحرارة متكيفًا مع الحجم ويمكنه توليد الانحراف المعياري المطلوب بشكل تكيفي لإنشاء ملصقات بناءً على حجم جسم الإنسان، مما يجعل النموذج أكثر قوة بالنسبة للأجسام البشرية ذات المقاييس المختلفة، وتقترح انحدارًا متكيفًا مع الوزن موازنة العينات الإيجابية والسلبية، واستكشاف تأثير انحدار خريطة الحرارة المتكيفة مع الحجم. تحقق هذه الورقة أخيرًا الأداء الأكثر تقدمًا في تقدير وضعية الإنسان من القاعدة إلى القمة. الكلمات المفتاحية: تقدير وضعية الإنسان، من أسفل إلى أعلى، انحدار الخريطة الحرارية التكيفية https://arxiv.org/abs/2012.15175 https://github.com/greatlog/SWAHR-HumanPose
يقترح GID طريقة تقطير جديدة تعتمد على مهام الكشف. من خلال استخلاص المثيلات العامة (GI) من المعلمين وStudnet على التوالي، تُقترح وحدة GISM لتحديد المثيلات بشكل تكيفي مع اختلافات كبيرة للتقطير القائم على الميزات، وعلى أساس العلاقات، وعلى أساس الاستجابة. تطبق هذه الطريقة تقطير المعرفة العلائقية على إطار الكشف لأول مرة، وتوحد هدف التقطير من الاعتبار المستقل لتقطير العينات الإيجابية والسلبية إلى تقطير GI الأكثر أهمية. لا تعتمد العملية على GT وتصل إلى SOTA. الكلمات المفتاحية: كشف الهدف، تقطير المعرفة https://arxiv.org/abs/2103.02340
نقترح وظيفة تنشيط جديدة ACON (تنشيط أم لا)، والتي يمكن أن تتعلم بشكل تكيفي كيفية التنشيط أم لا. أنشأ ACON العلاقة بين ReLU وSwish: لقد وجدنا أنه على الرغم من الاختلاف الكبير بين الشكلين، إلا أن Swish هو شكل سلس من ReLU. وبناءً على هذا الاكتشاف، اقترحنا المزيد من المتغيرات، مثل meta-acon، الذي حقق ضعف الزيادة المجانية مقارنة بـ SENet. نحن نتحقق من الأداء العام لوظيفة التنشيط المختصرة والفعالة هذه في مهام متعددة. الكلمات المفتاحية: وظيفة التنشيط، الشبكة العصبية https://arxiv.org/abs/2009.04759
في هذه المقالة، قمنا أولاً بتحليل دور FPN في كاشف المرحلة الواحدة RetinaNet، ومن خلال التجارب، وجدنا أن فكرة فرق تسد المتمثلة في تعيين كائنات بمقاييس مختلفة لمستويات مختلفة من الكشف في FPN لها أهمية كبيرة. التأثير على نتائج الكشف من منظور التحسين، تتحلل هذه الفكرة مشكلة التحسين في الكشف، مما يجعل التعلم الأمثل أسهل ويحسن دقة الكشف. ومع ذلك، فإن تصميم FPN استنادًا إلى ميزات متعددة المستويات يؤدي إلى تعقيد بنية الشبكة لطريقة الكشف، ويقدم حسابات إضافية، ويبطئ سرعة الكشف. من أجل تجنب المشاكل المذكورة أعلاه، تقترح هذه الورقة اكتشاف الكائنات من جميع المقاييس على مستوى واحد، وفي الوقت نفسه، لحل مشكلة التحسين الصعب في الكشف عن الميزات ذات المستوى الواحد، يعد حل تشفير الثقب والمطابقة المتوازنة. مقترح.
دقة الكشف عن كاشف YOLOF القائم على الميزات أحادي المستوى المقترح في هذه المقالة قابلة للمقارنة مع دقة RetinaNet المستندة إلى FPN عند استخدام ميزات C5 فقط، وسرعة الكشف تبلغ 2.5 مرة من RetinaNet. بالإضافة إلى ذلك، بالمقارنة مع DETR، الذي يستخدم أيضًا ميزات C5 فقط، يمكن لـ YOLOF تحقيق أداء مشابه مع تقارب أسرع (7x). الكلمات المفتاحية: اكتشاف الهدف بمرحلة واحدة، ميزات بمقياس واحد، التوازن بين سرعة الكشف ودقته https://arxiv.org/abs/2103.09460 https://github.com/megvii-model/YOLOF
إن تحسين أداء الكاشف دون زيادة تكلفة وضع العلامات هو الهدف من هذه الدراسة. تختار هذه الورقة عددًا صغيرًا من المربعات المحيطة وعددًا كبيرًا من التعليقات التوضيحية النقطية لتدريب الكاشف. يتم اختيار التعليق التوضيحي النقطي لأنه غني بالمعلومات: فهو يحتوي على معلومات الموقع والفئة للمثيل، وتكلفة التعليق التوضيحي منخفضة. تقترح هذه الورقة استخدام Point DETR من خلال توسيع أداة تشفير النقطة إلى DETR. والإطار العام هو: تدريب Point DETR من خلال بيانات المربع المحيط؛ وترميز التعليقات التوضيحية للنقطة في الاستعلامات والتنبؤ بالمربعات الزائفة من خلال المربع المحيط وبيانات المربع الزائف. في مجموعة بيانات COCO، باستخدام 20% فقط من البيانات المشروحة بالكامل، يحقق كاشفنا 33.3AP، وهو ما يتجاوز خط الأساس بمقدار 2.0AP. الكلمات المفتاحية: كشف الأهداف، شبه مراقب، ضعف الإشراف
العدسات ذات الزاوية الواسعة محبوبة بسبب مجال رؤيتها الواسع، لكنها تعاني من تشويه العدسة وتشويه المنظور، والذي يظهر كخطوط خلفية منحنية، وتمدد، وضغط، وإمالة الوجوه، وما إلى ذلك. ولتحقيق هذه الغاية، تقوم هذه الورقة ببناء شبكة متسلسلة لإزالة التشويه تتكون من شبكة تصحيح الخطوط وشبكة تصحيح الوجه ووحدة انتقالية، بحيث تمثل الخلفية إسقاطًا منظوريًا وتقدم منطقة الوجه إسقاطًا مجسمًا، وتنتقل بسلاسة بين الاثنين المناطق، بحيث يتم القضاء على التشوهات المختلفة مع الحفاظ على مجال الرؤية. لا تتطلب هذه الطريقة معلمات الكاميرا، ويمكنها تحقيق الأداء في الوقت الفعلي، وتتفوق على الأساليب الحالية في التقييمات النوعية والكمية. الكلمات المفتاحية: تصحيح تشويه الصورة ذات الزاوية الواسعة، الشبكة المتتالية العميقة
نقترح طريقة جديدة لتعلم التدفق البصري غير الخاضع للرقابة UPFlow. لقد وجدنا أن طريقة التدفق البصري غير الخاضع للرقابة الحالية لديها مشكلتين في معالجة الهرم متعدد المقاييس: مشكلة غموض الاستيفاء في عملية مضاعفة التدفق ومشكلة عدم الإشراف على التدفق متعدد المقاييس. في هذا الصدد، نقترح وحدة استيفاء ذاتية التوجيه تستخدم تدفق الاستيفاء وخريطة الاستيفاء لتغيير آلية الاستيفاء التقريبي، وبالتالي تحقيق عملية تكبير أكثر دقة. بالإضافة إلى ذلك، نقترح استخدام المخرجات النهائية للشبكة كتسميات زائفة للإشراف على تعلم التدفق متعدد النطاقات. واستنادًا إلى هذه التحسينات، أصبحت طريقتنا قادرة على الحصول على نتائج تدفق بصري أكثر وضوحًا ووضوحًا. نحن نجري تجارب على مجموعات بيانات قياس التدفق البصري المتعددة، بما في ذلك Sintel وKITTI 2012 وKITTI 2015. يتجاوز أداء UPFlow أفضل خوارزمية التدفق البصري غير الخاضع للرقابة الحالية بحوالي 20%. الكلمات المفتاحية: تقدير التدفق البصري، التعلم غير الخاضع للرقابة https://arxiv.org/abs/2012.00212
NBNet هو إطار عمل يحل مشكلة تقليل ضوضاء الصورة. نحن نتعامل مع هذه المشكلة من منظور جديد: الإسقاط المتكيف مع الصورة. على وجه التحديد، نتعلم مجموعة من الفضاءات الفرعية في مساحة الميزة، ويمكن تحقيق تقليل ضوضاء الصورة عن طريق اختيار مساحة فرعية مناسبة للإشارة وإسقاطها على هذا الفضاء الفرعي. بالمقارنة مع بنية الشبكة السابقة ذات المجلد الواحد، يمكن لـ NBNet بشكل طبيعي وأكثر كفاءة استخراج واستخدام المعلومات الهيكلية في الصور من خلال العرض، وخاصة مناطق النسيج الضعيفة، لمساعدتنا في استعادة الصور. من خلال هذه الطريقة البسيطة، حققت NBNet SOTA على معياري DND وSIDD مع حسابات أقل. الكلمات الرئيسية: تقليل ضوضاء الصورة، الفضاء الجزئي https://arxiv.org/abs/2012.15028
يقدم هذا العمل "النطاق الديناميكي"، وهو سمة مهمة في المقاييس، في التعلم المتري العميق، مما يؤدي إلى مهمة جديدة تسمى "التعلم المتري الديناميكي". لقد وجدنا أن قياسات العمق السابقة تحتوي في الواقع على مقياس واحد فقط، مثل التمييز فقط بين ما إذا كانت الوجوه والمشاة متشابهين أم مختلفين. ومهما كانت دقة أدوات القياس هذه، فهي غير مرنة ولها استخدامات محدودة في الاستخدام الفعلي. في الواقع، عادةً ما تحتوي أدوات القياس اليومية لدينا على نطاق ديناميكي، على سبيل المثال، تحتوي المسطرة دائمًا على مقاييس متعددة (مثل 1 مم أو 1 سم أو حتى 10 سم) لقياس الأشياء ذات المقاييس المختلفة. نعتقد أن الوقت قد حان لكي يقدم مجال التعلم المتري العميق النطاق الديناميكي. نظرًا لأن المفاهيم المرئية نفسها لها أحجام مختلفة، فإن "الحيوانات" و"النباتات" جميعها تتوافق مع مقاييس كبيرة، في حين أن "الأيائل" تتوافق مع مقاييس صغيرة نسبيًا. على نطاق صغير، قد يبدو اثنان من الأيائل مختلفين تمامًا، ولكن على نطاق واسع آخر، يجب اعتبار نفس الأيائل متشابهة جدًا.
ولتحقيق هذه الغاية، نقترح مهمة التعلم المتري الديناميكي هذه، والتي تتطلب تعلم مساحة مترية واحدة يمكن أن توفر في الوقت نفسه مقاييس تشابه للمفاهيم المرئية ذات الأحجام الدلالية المختلفة. علاوة على ذلك، قمنا ببناء ثلاث مجموعات بيانات متعددة النطاق ونقترح طريقة أساسية بسيطة. نحن نؤمن بأن النطاق الديناميكي سيصبح خاصية لا غنى عنها للتعلم المتري العميق وسيجلب وجهات نظر جديدة وسيناريوهات تطبيق جديدة إلى مجال التعلم المتري العميق بأكمله.
شبكة متكاملة لهندسة الرسم البياني ثلاثي الأبعاد لتقسيم كتلة البنكرياس والتشخيص والإدارة الكمية للمرضى
متتبع الآفات العميقة: مراقبة الآفات في دراسات التصوير الطولي رباعي الأبعاد https://arxiv.org/abs/2012.04872
التعريب التلقائي للفقرات وتحديد هويتها في التصوير المقطعي عن طريق تصحيح العمود الفقري والتحسين المقيد تشريحيًا https://arxiv.org/abs/2012.07947
شبكات CNN ثلاثية الأبعاد مع دقة الميزات الزمنية التكيفية https://arxiv.org/abs/2011.08652
KeepAugment: وسيلة بسيطة لتعزيز البيانات للحفاظ على المعلومات https://arxiv.org/pdf/2011.11778.pdf
Hijack-GAN: الاستخدام غير المقصود لشبكات GAN المدربة مسبقًا والصندوق الأسود https://arxiv.org/pdf/2011.14107.pdf
D-NeRF: مجالات الإشعاع العصبية للمشاهد الديناميكية https://arxiv.org/abs/2011.13961
شبكات خشنة دقيقة لاكتشاف النشاط الزمني في مقاطع الفيديو
توطين المثيلات للتدريب المسبق على الاكتشاف الخاضع للإشراف الذاتي https://arxiv.org/pdf/2102.08318.pdf https://github.com/limbo0000/InstanceLoc
الإجابة على الأسئلة البصرية المؤرضة ضعيفة الإشراف باستخدام الكبسولات
تجزئة LiDAR بانوبتيك رباعية الأبعاد https://arxiv.org/abs/2102.12472
بعنف: الكشف عن الطائرات بدون طيار من مقاطع فيديو الطائرات بدون طيار
التعلم النشط لمثيلات متعددة لاكتشاف الكائنات https://github.com/yuantn/MIAL/raw/master/paper.pdf https://github.com/yuantn/MIAL
إعادة النظر في محاذاة التمثيل لمجموعات العرض المتعددة
التنبؤ المتزامن متعدد الخطوات لديناميكيات الطريق وخريطة التكلفة تحت الإشراف الذاتي
ترجمة صورة إلى صورة عبر تفكيك النمط الهرمي Xinyang Li، Shengchuan Zhang، Jie Hu، Liujuan Cao، Xiaopeng Hong، Xudong Mao، Feiyue Huang، Yongjian Wu، Rongrong Ji https://arxiv.org/abs/2103.01456 https://arxiv.org/abs/2103.01456 /github.com/imlixinyang/HiSD
FLAVR: تمثيلات فيديو غير محددة التدفق لاستيفاء الإطار السريع https://arxiv.org/pdf/2012.08512.pdf https://tarun005.github.io/FLAVR/Code https://tarun005.github.io/FLAVR/
Patch-NetVLAD: دمج متعدد المقاييس للواصفات المحلية والعالمية للتعرف على الأماكن ستيفن هاوسلر، سوراف جارج، مينغ شو، مايكل ميلفورد، توبياس فيشر https://arxiv.org/abs/2103.01486
العمق من خلال حركة الكاميرا واكتشاف الأشياء برنت أ. غريفين، جايسون ج. كورسو https://arxiv.org/abs/2103.01468
UP-DETR: تدريب مسبق غير خاضع للرقابة لاكتشاف الأشياء باستخدام المحولات https://arxiv.org/pdf/2011.09094.pdf
استعادة الصور التقدمية متعددة المراحل https://arxiv.org/abs/2102.02808 https://github.com/swz30/MPRNet
التعلم الخاضع للإشراف الضعيف لتدفق المشهد الصلب ثلاثي الأبعاد https://arxiv.org/pdf/2102.08945.pdf https://arxiv.org/pdf/2102.08945.pdf https://3dsceneflow.github.io/
استكشاف القوى التكميلية للتمثيلات الثابتة والمتساوية للتعلم قليل اللقطة، ممشد نايم ريزفي، سلمان خان، فهد شهباز خان، مبارك شاه https://arxiv.org/abs/2103.01315
إعادة تسمية ImageNet: من التصنيفات الفردية إلى التصنيفات المتعددة، ومن التصنيفات العالمية إلى التصنيفات المحلية https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet
إعادة النظر في أبعاد القناة لتصميم نموذج فعال https://arxiv.org/abs/2007.00992 https://github.com/clovaai/rexnet
شبكات خشنة دقيقة للكشف عن النشاط الزمني في مقاطع الفيديو كومارا كاهاتابيتيا، مايكل س. ريو https://arxiv.org/abs/2103.01302
محاكي عميق للحركة الثانوية للشخصيات ثلاثية الأبعاد Mianlun Zheng وYi Zhou وDuygu Ceylan وJernej Barbic https://arxiv.org/abs/2103.01261
تصنيف السمات العادلة من خلال إزالة انحياز الفضاء الكامن https://arxiv.org/abs/2012.01469 https://github.com/princetonvisualai/gan-debiasing https://princetonvisualai.github.io/gan-debiasing/
دمج التعريض التلقائي لإزالة ظل الصورة الواحدة لان فو، تشانغتشينغ تشو، تشينغ غو، فيليكس جويفي-شو، هونغكاي يو، وي فنغ، يانغ ليو، سونغ وانغ https://arxiv.org/abs/2103.01255
الأقل هو الأفضل: CLIPBERT لتعلم الفيديو واللغة عبر أخذ عينات متفرقة https://arxiv.org/pdf/2102.06183.pdf https://github.com/jayleicn/ClipBERT
MetaSCI: إعادة بناء قابلة للتطوير والتكيف لاستشعار ضغط الفيديو، زينجو وانج، هاو تشانغ، زيهينج تشينج، بو تشن، شين يوان https://arxiv.org/abs/2103.01786
AttentiveNAS: تحسين البحث في الهندسة العصبية عبر Attentive https://arxiv.org/pdf/2011.09011.pdf
نماذج الانتشار الاحتمالية لتوليد السحابة النقطية ثلاثية الأبعاد Shitong Luo, Wei Hu https://arxiv.org/abs/2103.01458
هناك ما هو أكثر مما تراه العين: اكتشاف الكائنات المتعددة وتتبعها بالصوت تحت الإشراف الذاتي عن طريق تقطير المعرفة متعددة الوسائط فرانسيسكو ريفيرا فالفيردي، وخوانا فاليريا هورتادو، وأبيناف فالادا https://arxiv.org/abs/2103.01353 http://rl. uni-freiburg.de/research/multimodal-distill
التشفير بأسلوب: برنامج تشفير StyleGAN للترجمة من صورة إلى صورة https://arxiv.org/abs/2008.00951 https://github.com/eladrich/pixel2style2pixel https://eladrich.github.io/pixel2style2pixel/
تعلم السياسات المبنية على الأهداف بشكل هرمي ويمكن ملاحظته جزئيًا باستخدام الرسم البياني العلائقي للأهداف Xin Ye, Yezhou Yang https://arxiv.org/abs/2103.01350
RepVGG: جعل شبكات التحويل على غرار VGG رائعة مرة أخرى https://arxiv.org/abs/2101.03697 https://github.com/megvii-model/RepVGG
إمكانية تفسير المحولات بما يتجاوز تصور الانتباه https://arxiv.org/pdf/2012.09838.pdf https://github.com/hila-chefer/Transformer-Explainability
المفترس: تسجيل السحب النقطية ثلاثية الأبعاد ذات التداخل المنخفض https://arxiv.org/pdf/2011.13005.pdf https://github.com/ShengyuH/OverlapPredator https://overlappredator.github.io/
التقطير المعرفي متعدد الحلول للكشف عن الحالات الشاذة https://arxiv.org/abs/2011.11108
تنقية البيانات الإيجابية غير المُسماة في البرية لاكتشاف الأشياء
التقطير المعرفي الخالي من البيانات للحصول على صورة فائقة الدقة
تشذيب الشبكة الديناميكية المنتظمة المتعددة
محول معالجة الصور المدرب مسبقًا https://arxiv.org/pdf/2012.00364.pdf
ReNAS: التقييم النسبي للعمارة العصبية بحث https://arxiv.org/pdf/1910.01523.pdf
AdderSR: نحو دقة صور فائقة الكفاءة في استخدام الطاقة https://arxiv.org/pdf/2009.08891.pdf https://github.com/huawei-noah/AdderNet
تعلم شبكات الطلاب في البرية https://arxiv.org/pdf/1904.01186.pdf https://github.com/huawei-noah/DAFL https://www.zhihu.com/question/446299297
HourNAS: بحث معماري عصبي سريع للغاية من خلال عدسة الساعة الرملية https://arxiv.org/pdf/2005.14446.pdf
التضمينات الاحتمالية للاسترجاع عبر الوسائط https://arxiv.org/abs/2101.05068
PLOP: التعلم دون نسيان من أجل التقسيم الدلالي المستمر https://arxiv.org/abs/2011.11390
ذاكرة قوس قزح: التعلم المستمر مع ذاكرة العينات المتنوعة
استغلال الأبعاد المكانية الكامنة في GAN لتحرير الصور في الوقت الفعلي
1.GhostNet: المزيد من الميزات من العمليات الرخيصة (هندسة معمارية تتجاوز Mobilenet v3) الرابط الورقي: https://arxiv.org/pdf/1911.11907arxiv.org النموذج (أداء مذهل على وحدة المعالجة المركزية ARM): https://github com/iamhankai /ghostnetgithub.com
لقد تغلبنا على شبكات CNN الأخرى خفيفة الوزن من SOTA مثل MobileNetV3 وFBNet.
Addernet: هل نحتاج حقًا إلى التعلم العميق؟
المجال التردد المدمج 3D الشبكات العصبية الأناكلية (ضغط 3DCNN) الرابط الورقي: https://arxiv.org/pdf/1909
أحد المقيمين شبه الخاضع للإشراف للبنية العصبية (تنبؤ دقة الشبكة العصبية NAS)
Hit-Hegeter: Hierarchical Trinity Architecture Search for Comfort Confcer
السيارات: التطور المستمر للبحث الفعال في الهندسة العصبية (NAS) فعال ، ولديه مزايا متعددة من التفافل والتطور ، ويمكن أن يخرج أبحاث باريتو الأمامية
على التصنيف الإيجابي غير المتواصل في GAN (PU+GAN)
Learning Multiview 3D Point Cloud التسجيل (3D Point Cloud) رابط الورق: arxiv.org/abs/2001.05119
تكيف المجال متعدد الوسائط لارتباط ورقة التعرف على العمل الدقيق: arxiv.org/abs/2001.09691
المعدلات الإجراءات: التعلم من الظروف في ورق الفيديو التعليمي رابط: arxiv.org/abs/1912.06617
Polarmask: تجزئة مثيل لقطة واحدة مع تمثيل القطبية (نمذجة تجزئة المثيل) رابط الورق: arxiv.org/abs/1909.13226 تفسير الورق: https://zhuanlan.zhihu.com/p/84890413 رمز المصدر المفتوح: https: // github. com/xieenze/polarmask
إعادة التفكير في تقدير الأداء في البحث عن العمارة العصبية (NAS) نظرًا لأن الجزء الحقيقي الذي يستغرق وقتًا طويلاً من البحث عن العمارة العصبية الحكيم هو جزء تقدير الأداء ، فإن هذه المقالة تجد المعلمات المثلى للكتلة الحكيمة NAS ، والتي هي أسرع وأكثر صلة.
التوزيع الإبلاغ عن الإحداثيات الإحداثيات لورقة ورقة التقدير البشرية الرابط: arxiv.org/abs/1910.06278 Github: https://github.com/ilovepose/darkpose team team page: https://ilovepose.github.io/coco/
https://arxiv.org/abs/2002.12204
https://arxiv.org/abs/2002.11297
https://arxiv.org/abs/2002.12259
https://arxiv.org/abs/2002.12213
https://arxiv.org/abs/2002.12212
6. إنشاء رسم بياني مشهد غير متحيز من التدريب المتحيز
https://arxiv.org/abs/2002.11949
https://arxiv.org/abs/2002.11930
https://arxiv.org/abs/2002.11927
https://arxiv.org/abs/2002.11841
https://arxiv.org/abs/1912.03330
https://arxiv.org/abs/2002.11812
https://arxiv.org/abs/1911.07450
https://arxiv.org/abs/2002.11616
https://arxiv.org/abs/2002.11566
https://arxiv.org/abs/2002.11359
https://arxiv.org/pdf/2002.10638.pdf
https://arxiv.org/pdf/1911.11907.pdf
https://arxiv.org/pdf/1912.13200.pdf
https://arxiv.org/abs/1909.04977
https://arxiv.org/abs/1911.06634
https://arxiv.org/pdf/2001.05868.pdf
https://arxiv.org/pdf/1909.13226.pdf
https://arxiv.org/pdf/1811.07073.pdf
https://arxiv.org/pdf/1906.03444.pdf
https://arxiv.org/abs/2002.10310
https://arxiv.org/abs/1906.03444
https://geometry.cs.ucl.ac.uk/projects/2020/neuraltexture/
https://arxiv.org/abs/2002.11576
https://arxiv.org/pdf/1912.06445.pdf
https://arxiv.org/pdf/1912.02184