ลิงก์: https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA รหัสการแยก: vwkx
อัปเดต: 2022/03/02 อัปเดตการตีความบทความบางส่วน
MHFormer: หม้อแปลงหลายสมมติฐานสำหรับการประมาณค่าท่าทางมนุษย์แบบ 3 มิติ
บทความ: https://arxiv.org/pdf/2111.12707.pdf
รหัส: https://github.com/Vegetebird/MHFormer
บทความนี้มีวัตถุประสงค์เพื่อใช้รูปแบบการบิดเต็มรูปแบบในการแสดงและทำนายวัตถุและสภาพแวดล้อมโดยรอบอย่างสม่ำเสมอ จึงสามารถบรรลุการแบ่งส่วนแบบพาโนรามาที่แม่นยำและมีประสิทธิภาพ โดยเฉพาะบทความนี้เสนอตัวสร้างเคอร์เนลแบบบิดที่เข้ารหัสข้อมูลความหมายของแต่ละออบเจ็กต์และสภาพแวดล้อมแต่ละประเภทเป็นเคอร์เนลแบบบิดที่แตกต่างกัน และหมุนวนด้วยแผนที่คุณลักษณะที่มีความละเอียดสูงเพื่อส่งออกผลลัพธ์การแบ่งส่วนของแต่ละพื้นหน้าและพื้นหลังโดยตรง ด้วยแนวทางนี้ สามารถรักษาความแตกต่างระหว่างบุคคลและความสอดคล้องทางความหมายของวัตถุและสภาพแวดล้อมได้ตามลำดับ วิธีการนี้ให้ผลลัพธ์ที่ล้ำสมัยในด้านความเร็วและความแม่นยำบนชุดข้อมูลการแบ่งส่วนแบบพาโนรามาหลายชุด คำสำคัญ: การแสดงออกแบบครบวงจร, การบิดแบบไดนามิก, การแบ่งส่วนแบบ panoptic arxiv: https://arxiv.org/abs/2012.00720 github: https://github.com/yanwei-li/PanopticFCN
กระดาษปากเปล่า
FFB6D เสนอเฟรมเวิร์กการเรียนรู้การแสดง RGBD ฟิวชั่นสองทิศทางแบบเต็มไหลของเครือข่าย และนำไปใช้กับปัญหาการประมาณค่าท่าทาง 6D เราพบว่าวิธีการเรียนรู้การเป็นตัวแทนที่มีอยู่ล้มเหลวในการใช้ประโยชน์จากแหล่งข้อมูลเสริมสองแหล่งของข้อมูลลักษณะที่ปรากฏในรูปแบบ RGB และข้อมูลเรขาคณิตในแผนที่เชิงลึก (พอยต์คลาวด์)
ด้วยเหตุนี้ เราจึงออกแบบโมดูลฟิวชั่นหนาแน่นแบบสองทิศทาง และนำไปใช้กับแต่ละเลเยอร์การเข้ารหัสและถอดรหัสของ CNN และเครือข่ายพอยต์คลาวด์ กลไกฟิวชั่นสองทิศทางแบบเต็มไหลนี้ทำให้ทั้งสองเครือข่ายสามารถใช้ข้อมูลเสริมในท้องถิ่นและระดับโลกที่ดึงมาจากกันและกันได้อย่างเต็มที่ ดังนั้นจึงได้รับการนำเสนอที่ดีกว่าสำหรับงานทำนายดาวน์สตรีม นอกจากนี้ ในแง่ของการเลือกการแสดงผลลัพธ์ เราได้ออกแบบอัลกอริธึมการเลือกจุดสำคัญ SIFT-FPS โดยอิงตามข้อมูลพื้นผิวและเรขาคณิตของรายการ ซึ่งช่วยลดความยากของเครือข่ายในการค้นหาจุดสำคัญและปรับปรุงความแม่นยำของท่าทาง วิธีการของเราได้รับการปรับปรุงที่สำคัญในการวัดประสิทธิภาพหลายรายการ และเครือข่ายแกนหลักการเรียนรู้การเป็นตัวแทน RGBD นี้สามารถนำไปใช้กับงานด้านการมองเห็นได้มากขึ้นด้วย RGBD เป็นอินพุตโดยการเรียงซ้อนเครือข่ายการทำนายที่แตกต่างกัน คำสำคัญ: การเรียนรู้การแสดง RGBD, การมองเห็น 3 มิติ, การประมาณค่าท่าทาง 6 มิติ PDF: https://arxiv.org/abs/2103.02242 รหัส: https://github.com/ethnhe/FFB6D
วิทยาศาสตร์และเทคโนโลยีมีความก้าวหน้าอยู่เสมอ เราได้ "ฟื้นคืน" สถาปัตยกรรมเครือข่ายประสาทเทียมแบบมินิมอลแชนเนลเดี่ยวสไตล์ VGG โดยมีการบิดแบบ 3x3 ไปจนถึงจุดสิ้นสุด ซึ่งได้มาถึงระดับ SOTA ในด้านความเร็วและประสิทธิภาพแล้ว และมีอัตราความแม่นยำมากกว่า 80% อิมเมจเน็ต
เพื่อเอาชนะความยากลำบากในการฝึกฝนสถาปัตยกรรมสไตล์ VGG เราใช้การกำหนดพารามิเตอร์โครงสร้างใหม่เพื่อสร้างการแมปข้อมูลประจำตัวและสาขาการบิด 1x1 ในโมเดลระหว่างการฝึก จากนั้นจึงรวมพวกมันเป็น 3x3 หลังการฝึก ดังนั้นโมเดล มีเพียง 3x3 Convolution ระหว่างการอนุมาน สถาปัตยกรรมนี้ไม่มีโครงสร้างแยกย่อยใดๆ ดังนั้นจึงมีความขนานกันสูงและรวดเร็วมาก และเนื่องจากส่วนหลักมีตัวดำเนินการเพียงตัวเดียวคือ "3x3-ReLU" จึงเหมาะอย่างยิ่งสำหรับฮาร์ดแวร์ที่ปรับแต่งเอง คำสำคัญ: การปรับพารามิเตอร์โครงสร้าง สถาปัตยกรรมแบบมินิมัลลิสต์ แบบจำลองที่มีประสิทธิภาพ https://arxiv.org/abs/2101.03697
บทความนี้เสนอการดำเนินการ Convolution ใหม่—Dynamic Region-Aware Convolution (DRConv: Dynamic Region-Aware Convolution) ซึ่งสามารถจัดสรรเคอร์เนล Convolution ที่กำหนดเองไปยังพื้นที่ระนาบที่แตกต่างกันตามความคล้ายคลึงกันของคุณลักษณะ เมื่อเปรียบเทียบกับการโน้มน้าวใจแบบดั้งเดิม วิธีการโน้มน้าวใจนี้ช่วยเพิ่มความสามารถในการสร้างแบบจำลองของความหลากหลายของข้อมูลความหมายของภาพได้อย่างมาก เลเยอร์การบิดแบบมาตรฐานสามารถเพิ่มจำนวนเคอร์เนลการบิดเพื่อแยกองค์ประกอบภาพได้มากขึ้น แต่จะส่งผลให้ต้นทุนการคำนวณสูงขึ้น DRConv ใช้ตัวจัดสรรที่เรียนรู้ได้เพื่อถ่ายโอนเคอร์เนล Convolution ที่เพิ่มขึ้นทีละน้อยไปยังมิติระนาบ ซึ่งไม่เพียงแต่ปรับปรุงความสามารถในการเป็นตัวแทนของ Convolution เท่านั้น แต่ยังรักษาต้นทุนการคำนวณและความแปรปรวนในการแปลอีกด้วย
DRConv เป็นวิธีที่มีประสิทธิภาพและสวยงามในการจัดการการกระจายข้อมูลเชิงความหมายที่ซับซ้อนและหลากหลาย โดยสามารถแทนที่การโน้มน้าวมาตรฐานในเครือข่ายที่มีอยู่ด้วยคุณลักษณะ Plug-and-Play และมีการปรับปรุงประสิทธิภาพที่สำคัญสำหรับเครือข่ายขนาดเล็ก เอกสารนี้ประเมิน DRConv ในรุ่นต่างๆ (ซีรีส์ MobileNet, ShuffleNetV2 ฯลฯ) และงานต่างๆ (การจัดประเภท การจดจำใบหน้า การตรวจจับ และการแบ่งส่วน) ในการจัดประเภท ImageNet ShuffleNetV2 ที่ใช้ DRConv-0.5× ที่ระดับการคำนวณ 46M บรรลุประสิทธิภาพ 67.1% ซึ่งเพิ่มขึ้นจากระดับพื้นฐานถึง 6.3% https://arxiv.org/abs/2003.12243
เราเสนอโมดูลพื้นฐานเครือข่ายแบบหมุนวน (DBB) เพื่อเพิ่มโครงสร้างจุลภาคของแบบจำลองในระหว่างการฝึกอบรมโดยไม่ต้องเปลี่ยนโครงสร้างมหภาค ดังนั้นจึงปรับปรุงประสิทธิภาพ โมดูลนี้สามารถแปลงเป็น Convolution ได้อย่างเท่าเทียมกันด้วยการปรับพารามิเตอร์โครงสร้างใหม่หลังการฝึกอบรม ดังนั้นจึงไม่ต้องเพิ่มค่าใช้จ่ายในการอนุมานเพิ่มเติม รูปภาพ
เราได้สรุปโครงสร้าง 6 โครงสร้างที่สามารถแปลงได้อย่างเท่าเทียมกัน รวมถึงการบิดแบบต่อเนื่อง 1x1-KxK การพูลเฉลี่ย ฯลฯ และใช้การแปลงทั้ง 6 แบบนี้เพื่อสร้างอินสแตนซ์ DBB ที่เป็นตัวแทนซึ่งคล้ายกับ Inception ซึ่งสามารถใช้ได้กับสถาปัตยกรรมต่างๆ ทั้งสองประสบความสำเร็จอย่างมาก การปรับปรุงประสิทธิภาพ เราได้รับการยืนยันจากการทดลองว่า "ความไม่เป็นเชิงเส้นระหว่างการฝึก" (แต่เป็นเชิงเส้นระหว่างการอนุมาน เช่น BN) และ "ลิงก์ที่หลากหลาย" (เช่น 1x1+3x3 ดีกว่า 3x3+3x3) เป็นกุญแจสำคัญสู่ประสิทธิภาพของ DBB . คำสำคัญ: การปรับโครงสร้างใหม่ ไม่มีค่าใช้จ่ายในการให้เหตุผล การปรับปรุงที่ไม่เจ็บปวด
งานที่ผ่านมาส่วนใหญ่มุ่งเน้นไปที่ประสิทธิภาพของกลุ่มตัวอย่างในชั้นเรียนขนาดเล็ก โดยไม่สูญเสียประสิทธิภาพของกลุ่มตัวอย่างในชั้นเรียนขนาดใหญ่ บทความนี้ขอเสนอเครื่องตรวจจับเป้าหมายตัวอย่างขนาดเล็กโดยไม่ลืมผลกระทบ ซึ่งสามารถบรรลุประสิทธิภาพหมวดหมู่ตัวอย่างขนาดเล็กได้ดีขึ้น โดยไม่สูญเสียประสิทธิภาพของหมวดหมู่ตัวอย่างขนาดใหญ่ ในบทความนี้ เราพบว่าตัวตรวจจับที่ได้รับการฝึกหัดแทบจะไม่สร้างการคาดการณ์เชิงบวกที่ผิดพลาดในคลาสที่มองไม่เห็น และเรายังพบว่า RPN ไม่ใช่องค์ประกอบที่ไม่เชื่อเรื่องคลาสในอุดมคติ จากการค้นพบทั้งสองนี้ เราได้ออกแบบโครงสร้างที่เรียบง่ายและมีประสิทธิภาพสองโครงสร้าง ได้แก่ Re-detector และ Bias-Balanced RPN ซึ่งสามารถบรรลุการตรวจจับเป้าหมายตัวอย่างขนาดเล็กโดยไม่ลืมผลกระทบโดยการเพิ่มพารามิเตอร์และเวลาอนุมานจำนวนเล็กน้อยเท่านั้น คำสำคัญ: การเรียนรู้จากตัวอย่างเล็กๆ น้อยๆ การตรวจจับเป้าหมาย
บทความนี้เสนอกรอบการทำงานที่เป็นหนึ่งเดียวสำหรับการจัดการงานการจดจำภาพที่มีการกระจายข้อมูลแบบหางยาว อันดับแรก เราทำการวิเคราะห์เชิงทดลองของวิธีการสองขั้นตอนที่มีอยู่เพื่อจัดการกับปัญหาหางยาว และพบปัญหาคอขวดของประสิทธิภาพหลักของวิธีการที่มีอยู่ จากการวิเคราะห์เชิงทดลอง เราเสนอกลยุทธ์การจัดตำแหน่งการกระจายเพื่อแก้ไขงานการมองเห็นหางยาวอย่างเป็นระบบ
กรอบงานได้รับการออกแบบโดยใช้วิธีการสองขั้นตอน ในขั้นตอนแรก กลยุทธ์การสุ่มตัวอย่างที่สมดุลจะถูกนำมาใช้สำหรับการเรียนรู้การนำเสนอคุณลักษณะ (การเรียนรู้การเป็นตัวแทน) ในขั้นที่สอง เราได้ออกแบบฟังก์ชันการจัดตำแหน่งแบบรับรู้อินพุตเพื่อแก้ไขคะแนนของข้อมูลอินพุต ในเวลาเดียวกัน เพื่อแนะนำลำดับความสำคัญของการกระจายชุดข้อมูล เราได้ออกแบบรูปแบบการถ่วงน้ำหนักทั่วไปเพื่อจัดการกับสถานการณ์งานภาพต่างๆ เช่น การจำแนกรูปภาพ การแบ่งส่วนความหมาย การตรวจจับวัตถุ และการแบ่งส่วนอินสแตนซ์ เราได้ตรวจสอบวิธีการของเราในงานสี่งานและได้รับการปรับปรุงประสิทธิภาพที่สำคัญในแต่ละงาน คำสำคัญ: การจำแนกภาพ การแบ่งส่วนความหมาย การตรวจจับวัตถุ การแบ่งส่วนอินสแตนซ์
นับเป็นครั้งแรกที่เอกสารนี้จะลบการประมวลผลหลังการประมวลผล NMS (การระงับสูงสุด) บนเครื่องตรวจจับเป้าหมายแบบหมุนวนอย่างสมบูรณ์ และบรรลุการฝึกอบรมตั้งแต่ต้นทางถึงปลายทาง เราวิเคราะห์วิธีการตรวจจับออบเจ็กต์แบบขั้นตอนเดียวหลักและพบว่ากลยุทธ์การจัดสรรป้ายกำกับแบบหนึ่งต่อกลุ่มแบบดั้งเดิมเป็นกุญแจสำคัญของวิธีการเหล่านี้โดยอาศัย NMS และด้วยเหตุนี้จึงเสนอกลยุทธ์การจัดสรรป้ายกำกับแบบหนึ่งต่อหนึ่งที่รับรู้การคาดการณ์ นอกจากนี้ เพื่อปรับปรุงประสิทธิภาพของการกำหนดป้ายกำกับแบบหนึ่งต่อหนึ่ง เราเสนอโมดูลที่ปรับปรุงความสามารถในการแสดงคุณสมบัติและฟังก์ชันการสูญเสียเสริมที่เร่งการหลอมรวมแบบจำลอง วิธีการของเรามีประสิทธิภาพเทียบเท่ากับวิธีการตรวจจับวัตถุขั้นตอนเดียวทั่วไปโดยไม่ต้องใช้ NMS ในฉากที่มีความหนาแน่นสูง การเรียกคืนวิธีการของเรานั้นเกินกว่าขีดจำกัดบนทางทฤษฎีของวิธีการตรวจจับวัตถุที่อาศัย NMS คำสำคัญ: การตรวจจับจากต้นทางถึงปลายทาง การกำหนดป้ายกำกับ เครือข่ายแบบหมุนวนเต็มรูปแบบ https://arxiv.org/abs/2012.03544
เราเสนอกลยุทธ์การจับคู่ตัวอย่างการตรวจจับเป้าหมายตามทฤษฎีการส่งผ่านที่เหมาะสมที่สุด ซึ่งใช้ข้อมูลทั่วโลกเพื่อค้นหาผลลัพธ์การจับคู่ตัวอย่างที่เหมาะสมที่สุด เมื่อเปรียบเทียบกับเทคโนโลยีการจับคู่ตัวอย่างที่มีอยู่ มีข้อดีดังต่อไปนี้: 1) ผลลัพธ์การจับคู่ที่เหมาะสมที่สุดทั่วโลกสามารถช่วยให้เครื่องตรวจจับได้รับการฝึกอบรมในลักษณะที่เสถียรและมีประสิทธิภาพ และบรรลุประสิทธิภาพการตรวจจับที่เหมาะสมที่สุดบนชุดข้อมูล COCO ได้ในท้ายที่สุด 2) สถานการณ์ที่ใช้งานได้หลากหลาย อัลกอริธึมการตรวจจับเป้าหมายที่มีอยู่จำเป็นต้องออกแบบกลยุทธ์ใหม่หรือปรับพารามิเตอร์เมื่อเผชิญกับฉากที่ซับซ้อน เช่น เป้าหมายที่หนาแน่นหรือการบดบังที่รุนแรง - ประสิทธิภาพล้ำสมัยในฉากต่างๆ โดยมีเป้าหมายหนาแน่นและการบดเคี้ยวที่รุนแรง และมีศักยภาพในการใช้งานที่ยอดเยี่ยม คำสำคัญ: การตรวจจับเป้าหมาย การส่งสัญญาณที่เหมาะสมที่สุด กลยุทธ์การจับคู่ตัวอย่าง
เนื่องจากการกำหนดฉลากของเครื่องตรวจจับแบบขั้นตอนเดียวเป็นแบบคงที่และไม่พิจารณาข้อมูลส่วนกลางของเฟรมวัตถุ เราจึงเสนอเครื่องตรวจจับวัตถุตามการสุ่มตัวอย่างการกระจายมวลวัตถุ ในบทความนี้ เราขอเสนอโมดูลการเข้ารหัสการกระจายคุณภาพ QDE และโมดูลการกระจายตัวอย่างคุณภาพ QDS โดยการแยกคุณสมบัติระดับภูมิภาคของเฟรมเป้าหมายและการสร้างแบบจำลองการกระจายคุณภาพของเฟรมการทำนายตามแบบจำลองผสมแบบเกาส์ เราสามารถเลือกไดนามิก ค่าบวกของกรอบการตรวจจับ การจัดสรรตัวอย่างเชิงลบ วิธีการนี้เกี่ยวข้องกับการจัดสรรป้ายกำกับในขั้นตอนการฝึกอบรมเท่านั้น และสามารถบรรลุผลลัพธ์ที่ดีที่สุดในปัจจุบันจากชุดข้อมูลหลายชุด เช่น COCO คำสำคัญ: การกำหนดฉลาก
วิธีการ FSCE ที่เสนอในบทความนี้มีจุดมุ่งหมายเพื่อแก้ปัญหาการตรวจจับวัตถุตัวอย่างขนาดเล็กจากมุมมองของการปรับการแสดงคุณลักษณะให้เหมาะสม ในงานการตรวจจับวัตถุตัวอย่างขนาดเล็ก จำนวนตัวอย่างเป้าหมายนั้นมีจำกัด และการจำแนกประเภทตัวอย่างเป้าหมายที่ถูกต้องมักจะส่งผลกระทบอย่างมากต่อประสิทธิภาพขั้นสุดท้าย FSCE ใช้แนวคิดของการเรียนรู้แบบตรงกันข้ามเพื่อเข้ารหัสเฟรมผู้สมัครที่เกี่ยวข้องและเพิ่มประสิทธิภาพการแสดงคุณลักษณะ เสริมความแข็งแกร่งให้กับความกะทัดรัดภายในคลาสและการขับไล่ฟีเจอร์ระหว่างคลาสได้รับการปรับปรุงอย่างมีประสิทธิภาพบนชุดข้อมูล COCO และ Pascal VOC ทั่วไป . คำสำคัญ: การตรวจหาเป้าหมายตัวอย่างขนาดเล็ก ลิงก์เอกสารการเรียนรู้เชิงเปรียบเทียบ: https://arxiv.org/abs/2103.05950
อัลกอริธึม NAS กระแสหลักที่มีอยู่จะทำการค้นหาโมเดลผ่านประสิทธิภาพการทำนายของเครือข่ายย่อยบนชุดการตรวจสอบ อย่างไรก็ตาม ภายใต้กลไกการแบ่งปันพารามิเตอร์ มีความแตกต่างอย่างมากระหว่างประสิทธิภาพการทำนายในชุดการตรวจสอบและประสิทธิภาพที่แท้จริงของโมเดล เป็นครั้งแรกที่เราทำลายกระบวนทัศน์ของการประเมินโมเดลตามประสิทธิภาพการทำนาย ประเมินเครือข่ายย่อยจากมุมมองของความเร็วการลู่เข้าของโมเดล และตั้งสมมติฐานว่ายิ่งโมเดลมาบรรจบกันเร็วเท่าใด ประสิทธิภาพการทำนายที่สอดคล้องกันก็จะยิ่งสูงขึ้นเท่านั้น
จากกรอบงานการลู่เข้าของโมเดล เราพบว่าการลู่เข้าของโมเดลไม่เกี่ยวข้องกับป้ายกำกับที่แท้จริงของรูปภาพ และได้เสนอกระบวนทัศน์ NAS-RLNAS ใหม่เพิ่มเติมที่ใช้ป้ายกำกับแบบสุ่มสำหรับการฝึกอบรมเครือข่ายขั้นสูง RRNAS ได้รับการยืนยันในชุดข้อมูลหลายชุด (NAS-Bench-201, ImageNet) และพื้นที่การค้นหาหลายรายการ (DARTS, MobileNet-like) ผลการทดลองแสดงให้เห็นว่า RLNAS สามารถบรรลุประสิทธิภาพของ NAS ที่มีอยู่โดยใช้เฉพาะโครงสร้างที่ค้นหาป้ายกำกับแบบสุ่ม ระดับโซต้า RLNAS ดูเหมือนจะขัดกับสัญชาตญาณในตอนแรก แต่ผลลัพธ์ที่ดีอย่างไม่คาดคิดทำให้เป็นพื้นฐานที่แข็งแกร่งยิ่งขึ้นสำหรับชุมชน NAS และยังเป็นแรงบันดาลใจให้คิดเกี่ยวกับธรรมชาติของ NAS อีกด้วย คำสำคัญ: การค้นหาสถาปัตยกรรมเครือข่ายประสาทเทียม, สมมติฐานการลู่เข้าของโมเดล, ป้ายกำกับแบบสุ่ม https://arxiv.org/abs/2101.11834
อัลกอริธึมการประมาณท่าทางของมนุษย์ในปัจจุบันใช้การถดถอยของแผนที่ความร้อนเพื่อให้ได้จุดร่วมสุดท้าย โดยทั่วไปวิธีการเหล่านี้จะใช้เคอร์เนลเกาส์เซียน 2D ส่วนเบี่ยงเบนมาตรฐานคงที่ ซึ่งครอบคลุมจุดสำคัญโครงกระดูกทั้งหมดเพื่อสร้างแผนที่ความร้อนที่แท้จริง และใช้แผนที่ความร้อนจริงเพื่อควบคุมแบบจำลอง เนื่องจากแผนที่ความร้อนที่แท้จริงของจุดร่วมของคนต่างๆ ถูกสร้างขึ้นโดยใช้เคอร์เนลเกาส์เซียนเดียวกัน วิธีการนี้จึงไม่พิจารณาความแตกต่างของขนาดของคนต่างๆ ซึ่งจะทำให้เกิดความคลุมเครือของป้ายกำกับและส่งผลต่อผลกระทบของแบบจำลอง
บทความนี้เสนอการถดถอยของแผนที่ความร้อนแบบปรับตามขนาดที่สามารถสร้างค่าเบี่ยงเบนมาตรฐานที่จำเป็นในการสร้างฉลากตามขนาดของร่างกายมนุษย์ได้ ดังนั้นจึงทำให้แบบจำลองมีความแข็งแกร่งมากขึ้นสำหรับร่างกายมนุษย์ในขนาดต่างๆ และเสนอการถดถอยแบบปรับตามน้ำหนัก ปรับสมดุลตัวอย่างเชิงบวกและเชิงลบ สำรวจเพิ่มเติมเกี่ยวกับเอฟเฟกต์การถดถอยของแผนที่ความร้อนแบบปรับขนาดได้ ในที่สุดบทความนี้ก็บรรลุถึงประสิทธิภาพขั้นสูงสุดในการประมาณท่าทางของมนุษย์จากล่างขึ้นบน คำสำคัญ: การประมาณท่าทางของมนุษย์ จากล่างขึ้นบน การถดถอยแผนที่ความร้อนแบบปรับเปลี่ยน https://arxiv.org/abs/2012.15175 https://github.com/greatlog/SWAHR-HumanPose
GID เสนอวิธีการกลั่นแบบใหม่โดยอิงจากงานตรวจจับ ด้วยการแยกอินสแตนซ์ทั่วไป (GI) ออกจากครูและสตั๊ดเน็ตตามลำดับ โมดูล GISM ได้รับการเสนอให้เลือกอินสแตนซ์ที่ปรับเปลี่ยนได้โดยมีความแตกต่างอย่างมากสำหรับการกลั่นตามคุณลักษณะ ตามความสัมพันธ์ และตามการตอบสนอง วิธีนี้ใช้การกลั่นความรู้เชิงสัมพันธ์กับกรอบงานการตรวจจับเป็นครั้งแรก และรวมเป้าหมายการกลั่นจากการกลั่นตัวอย่างเชิงบวกและเชิงลบอย่างอิสระ ไปจนถึงการกลั่น GI ที่จำเป็นมากขึ้น กระบวนการนี้ไม่ต้องใช้ GT และไปถึง SOTA คำสำคัญ: การตรวจจับเป้าหมาย การกลั่นความรู้ https://arxiv.org/abs/2103.02340
เราขอเสนอฟังก์ชันการเปิดใช้งานใหม่ ACON (เปิดใช้งานหรือไม่) ซึ่งสามารถเรียนรู้แบบปรับเปลี่ยนได้ว่าจะเปิดใช้งานหรือไม่ ACON สร้างการเชื่อมโยงระหว่าง ReLU และ Swish: เราพบว่าแม้ว่าทั้งสองรูปแบบจะแตกต่างกันมาก แต่ Swish ก็เป็น ReLU รูปแบบที่ราบรื่น จากการค้นพบนี้ เราได้เสนอรูปแบบเพิ่มเติมเพิ่มเติม เช่น meta-acon ซึ่งเพิ่มขึ้นโดยไม่เสียค่าใช้จ่ายถึงสองเท่าเมื่อเทียบกับ SENet เราตรวจสอบประสิทธิภาพการทำงานทั่วไปของฟังก์ชันการเปิดใช้งานที่กระชับและมีประสิทธิภาพนี้ในหลาย ๆ งาน คำสำคัญ: ฟังก์ชั่นการเปิดใช้งาน, โครงข่ายประสาทเทียม https://arxiv.org/abs/2009.04759
ในบทความนี้ อันดับแรกเราได้วิเคราะห์บทบาทของ FPN ในเครื่องตรวจจับ RetinaNet แบบขั้นตอนเดียว จากการทดลอง เราพบว่าแนวคิดแบบแบ่งแยกและพิชิตในการกำหนดวัตถุที่มีขนาดต่างกันให้กับระดับการตรวจจับที่แตกต่างกันใน FPN นั้นยอดเยี่ยมมาก ส่งผลกระทบต่อผลการตรวจจับ จากมุมมองของการปรับให้เหมาะสม แนวคิดนี้จะสลายปัญหาการปรับให้เหมาะสมในการตรวจจับ ทำให้การเรียนรู้การปรับให้เหมาะสมง่ายขึ้น และปรับปรุงความแม่นยำในการตรวจจับ อย่างไรก็ตาม การออกแบบ FPN ตามคุณสมบัติหลายระดับทำให้โครงสร้างเครือข่ายของวิธีการตรวจจับมีความซับซ้อน ทำให้เกิดการคำนวณเพิ่มเติม และทำให้ความเร็วในการตรวจจับช้าลง เพื่อหลีกเลี่ยงปัญหาข้างต้น บทความนี้เสนอให้ตรวจจับวัตถุทุกสเกลในระดับเดียว ขณะเดียวกัน เพื่อเป็นการแก้ปัญหาการปรับให้เหมาะสมที่ยากในการตรวจจับคุณสมบัติระดับเดียว วิธีแก้ปัญหาของตัวเข้ารหัสรูและการจับคู่ที่สมดุลคือ เสนอ
ความแม่นยำในการตรวจจับของเครื่องตรวจจับตามคุณสมบัติระดับเดียว YOLOF ที่เสนอในบทความนี้เทียบได้กับความแม่นยำของ RetinaNet ที่ใช้ FPN เมื่อใช้คุณสมบัติ C5 เท่านั้น และความเร็วในการตรวจจับคือ 2.5 เท่าของ RetinaNet นอกจากนี้ เมื่อเปรียบเทียบกับ DETR ซึ่งใช้เฉพาะคุณสมบัติ C5 แล้ว YOLOF ก็สามารถบรรลุประสิทธิภาพที่เทียบเคียงได้ด้วยการลู่เข้าที่เร็วขึ้น (7 เท่า) คำสำคัญ: การตรวจจับเป้าหมายขั้นตอนเดียว คุณสมบัติระดับเดียว สมดุลระหว่างความเร็วและความแม่นยำในการตรวจจับ https://arxiv.org/abs/2103.09460 https://github.com/megvii-model/YOLOF
การปรับปรุงประสิทธิภาพของเครื่องตรวจจับโดยไม่เพิ่มต้นทุนการติดฉลากคือเป้าหมายของการศึกษานี้ บทความนี้จะเลือกกล่องขอบเขตจำนวนเล็กน้อยและคำอธิบายประกอบแบบจุดจำนวนมากเพื่อฝึกตัวตรวจจับ เลือกคำอธิบายประกอบแบบจุดเนื่องจากมีข้อมูลมากมาย โดยประกอบด้วยข้อมูลตำแหน่งและหมวดหมู่ของอินสแตนซ์ และมีค่าใช้จ่ายคำอธิบายประกอบต่ำ บทความนี้เสนอ Point DETR โดยขยาย point encoder ไปที่ DETR กรอบงานโดยรวมคือ: ฝึก Point DETR ผ่านข้อมูล Bounding Box เข้ารหัสคำอธิบายประกอบแบบ Point ลงในแบบสอบถามและทำนาย Pseudo Box ในชุดข้อมูล COCO โดยใช้ข้อมูลที่มีคำอธิบายประกอบครบถ้วนเพียง 20% ตัวตรวจจับของเราบรรลุ 33.3AP ซึ่งเกินเส้นพื้นฐาน 2.0AP คำสำคัญ: การตรวจจับเป้าหมาย กึ่งกำกับดูแล กำกับดูแลอ่อนแอ
เลนส์มุมกว้างเป็นที่ชื่นชอบเนื่องจากมีขอบเขตการมองเห็นที่กว้าง แต่ก็ประสบปัญหาการบิดเบี้ยวของเลนส์และการบิดเบี้ยวของเปอร์สเป็คทีฟ ซึ่งปรากฏเป็นเส้นพื้นหลังโค้ง การยืด การบีบ และการเอียงของใบหน้า ฯลฯ ด้วยเหตุนี้ บทความนี้จึงสร้างเครือข่ายลดความผิดเพี้ยนแบบเรียงซ้อนซึ่งประกอบด้วยเครือข่ายการแก้ไขเส้น เครือข่ายการแก้ไขใบหน้า และโมดูลการเปลี่ยนภาพ เพื่อให้พื้นหลังนำเสนอการฉายเปอร์สเปคทีฟ และพื้นที่ใบหน้านำเสนอการฉายภาพสามมิติ และการเปลี่ยนผ่านระหว่างทั้งสองได้อย่างราบรื่น พื้นที่เพื่อขจัดความผิดเพี้ยนต่างๆในขณะที่ยังคงรักษา FOV วิธีการนี้ไม่ต้องใช้พารามิเตอร์ของกล้อง สามารถบรรลุประสิทธิภาพแบบเรียลไทม์ และเหนือกว่าวิธีการที่มีอยู่ในการประเมินทั้งเชิงคุณภาพและเชิงปริมาณ คำสำคัญ: การแก้ไขความผิดเพี้ยนของภาพบุคคลมุมกว้าง เครือข่ายน้ำตกแบบลึก
เราขอเสนอวิธีการเรียนรู้การไหลด้วยแสงแบบไม่มีผู้ดูแลแบบใหม่ UPFlow เราพบว่าวิธีการไหลของแสงที่ไม่ได้รับการดูแลในปัจจุบันมีปัญหาสองประการในการประมวลผลปิรามิดหลายสเกล: ปัญหาความคลุมเครือในการแก้ไขในกระบวนการอัปแซมปลิงของโฟลว์ และปัญหาการขาดการควบคุมดูแลของโฟลว์หลายสเกล ในเรื่องนี้ เราขอเสนอโมดูลอัปแซมปลิงแบบแนะนำตัวเองซึ่งใช้โฟลว์การประมาณค่าและแผนที่การประมาณค่าเพื่อเปลี่ยนกลไกการประมาณค่าการสุ่มตัวอย่างแบบอัปแซมปลิง ดังนั้นจึงบรรลุการอัปแซมปลิงที่ละเอียดยิ่งขึ้น นอกจากนี้ เราเสนอให้ใช้ผลลัพธ์สุดท้ายของเครือข่ายเป็นป้ายกำกับหลอกเพื่อควบคุมการเรียนรู้ของโฟลว์หลายระดับ จากการปรับปรุงเหล่านี้ วิธีการของเราสามารถให้ผลลัพธ์การไหลของแสงที่ชัดเจนและคมชัดยิ่งขึ้น เราทำการทดลองกับชุดข้อมูลการวัดประสิทธิภาพการไหลของแสงหลายชุด รวมถึง Sintel, KITTI 2012 และ KITTI 2015 ประสิทธิภาพของ UPFlow เกินกว่าอัลกอริธึมการไหลของแสงแบบไม่มีผู้ดูแลที่ดีที่สุดในปัจจุบันประมาณ 20% คำสำคัญ: การประมาณค่าการไหลของแสง, การเรียนรู้แบบไม่มีผู้ดูแล https://arxiv.org/abs/2012.00212
NBNet เป็นเฟรมเวิร์กที่ช่วยแก้ปัญหาการลดสัญญาณรบกวนของภาพ เราแก้ไขปัญหานี้ด้วยมุมมองใหม่: การฉายภาพแบบปรับให้เหมาะสม โดยเฉพาะอย่างยิ่ง เราเรียนรู้ชุดของสเปซย่อยบนสเปซคุณลักษณะ และการลดสัญญาณรบกวนของภาพสามารถทำได้โดยการเลือกสเปซย่อยของสัญญาณที่เหมาะสมและฉายภาพไปยังสเปซย่อยนี้ เมื่อเปรียบเทียบกับโครงสร้างเครือข่ายแบบหนึ่งวอลุ่มก่อนหน้านี้ NBNet สามารถดึงและใช้ข้อมูลโครงสร้างในภาพได้อย่างเป็นธรรมชาติและมีประสิทธิภาพมากขึ้นผ่านการฉายภาพ โดยเฉพาะพื้นที่พื้นผิวที่อ่อนแอ เพื่อช่วยเรากู้คืนภาพ ด้วยวิธีการง่ายๆ ดังกล่าว NBNet จึงได้รับ SOTA จากเกณฑ์มาตรฐานสองรายการของ DND และ SIDD โดยมีการคำนวณน้อยกว่า คำสำคัญ: การลดสัญญาณรบกวนรูปภาพ สเปซย่อย https://arxiv.org/abs/2012.15028
งานนี้แนะนำ "ช่วงไดนามิก" ซึ่งเป็นคุณลักษณะที่สำคัญในหน่วยวัด เข้าสู่การเรียนรู้หน่วยเมตริกเชิงลึก ส่งผลให้เกิดงานใหม่ที่เรียกว่า "การเรียนรู้หน่วยเมตริกแบบไดนามิก" เราพบว่าการวัดความลึกก่อนหน้านี้จริง ๆ แล้วมีเพียงมาตราส่วนเดียวเท่านั้น เช่น การแยกแยะว่าใบหน้าและคนเดินถนนมีความคล้ายคลึงหรือต่างกันเท่านั้น ไม่ว่าเครื่องมือวัดดังกล่าวจะแม่นยำเพียงใด แต่ก็ไม่ยืดหยุ่นและมีข้อจำกัดในการใช้งานจริง ในความเป็นจริง เครื่องมือวัดรายวันของเรามักจะมีช่วงไดนามิก ตัวอย่างเช่น ไม้บรรทัดจะมีสเกลหลายระดับเสมอ (เช่น 1 มม. 1 ซม. หรือแม้แต่ 10 ซม.) เพื่อวัดวัตถุที่มีสเกลต่างกัน เราเชื่อว่าถึงเวลาแล้วที่สาขาการเรียนรู้แบบเมตริกเชิงลึกจะแนะนำช่วงไดนามิก เนื่องจากแนวคิดด้านภาพมีขนาดต่างกัน "สัตว์" และ "พืช" ล้วนสอดคล้องกับมาตราส่วนขนาดใหญ่ ในขณะที่ "กวางเอลค์" สอดคล้องกับมาตราส่วนที่ค่อนข้างเล็ก ในระดับเล็ก กวางสองตัวอาจดูแตกต่างกันมาก แต่ในอีกขนาดใหญ่ กวางสองตัวตัวเดียวกันก็ควรถือว่าคล้ายกันมาก
ด้วยเหตุนี้ เราจึงเสนองานการเรียนรู้เมทริกแบบไดนามิก ซึ่งจำเป็นต้องเรียนรู้พื้นที่เมทริกเดียวที่สามารถให้การวัดความคล้ายคลึงกันสำหรับแนวคิดภาพที่มีขนาดความหมายต่างกันไปพร้อมๆ กัน นอกจากนี้ เรายังสร้างชุดข้อมูลหลายขนาดสามชุดและเสนอวิธีการพื้นฐานง่ายๆ เราเชื่อว่าช่วงไดนามิกจะกลายเป็นคุณสมบัติที่ขาดไม่ได้ของการเรียนรู้การวัดเชิงลึก และนำมุมมองใหม่และสถานการณ์การใช้งานใหม่มาสู่สาขาการเรียนรู้การวัดเชิงลึกทั้งหมด
เครือข่ายบูรณาการเรขาคณิตกายวิภาคศาสตร์กราฟ 3 มิติสำหรับการแบ่งส่วนมวลตับอ่อน การวินิจฉัย และการจัดการผู้ป่วยเชิงปริมาณ
ตัวติดตามรอยโรคลึก: การติดตามรอยโรคในการศึกษาด้วยภาพระยะยาว 4 มิติ https://arxiv.org/abs/2012.04872
การแปลและระบุกระดูกสันหลังอัตโนมัติใน CT โดยการแก้ไขกระดูกสันหลังและการเพิ่มประสิทธิภาพที่มีข้อ จำกัด ทางกายวิภาค https://arxiv.org/abs/2012.07947
3D CNN พร้อมความละเอียดฟีเจอร์ชั่วคราวที่ปรับเปลี่ยนได้ https://arxiv.org/abs/2011.08652
KeepAugment: การเพิ่มข้อมูลเพื่อรักษาข้อมูลอย่างง่าย https://arxiv.org/pdf/2011.11778.pdf
Hijack-GAN: การใช้ Black-Box GAN ที่ผ่านการฝึกอบรมมาแล้วโดยไม่ได้ตั้งใจ https://arxiv.org/pdf/2011.14107.pdf
D-NeRF: สนามรังสีประสาทสำหรับฉากไดนามิก https://arxiv.org/abs/2011.13961
เครือข่ายหยาบละเอียดสำหรับการตรวจจับกิจกรรมชั่วคราวในวิดีโอ
การแปลอินสแตนซ์สำหรับการควบคุมการตรวจจับด้วยตนเอง การฝึกอบรมล่วงหน้า https://arxiv.org/pdf/2102.08318.pdf https://github.com/limbo0000/InstanceLoc
การตอบคำถามด้วยภาพที่มีพื้นฐานและมีการดูแลไม่ดีโดยใช้แคปซูล
การแบ่งส่วน LiDAR แบบพาโนรามา 4D https://arxiv.org/abs/2102.12472
อุตลุด: การตรวจจับโดรนจากวิดีโอโดรน
การเรียนรู้แบบแอคทีฟหลายอินสแตนซ์สำหรับการตรวจจับวัตถุ https://github.com/yuantn/MIAL/raw/master/paper.pdf https://github.com/yuantn/MIAL
พิจารณาการจัดตำแหน่งการเป็นตัวแทนอีกครั้งสำหรับการจัดกลุ่มหลายมุมมอง
การคาดการณ์หลายขั้นตอนพร้อมกันพร้อมดูแลด้วยตนเองของการเปลี่ยนแปลงของถนนและแผนที่ต้นทุน
การแปลจากภาพเป็นภาพโดยการแยกรูปแบบตามลำดับชั้น Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji https://arxiv.org/abs/2103.01456 https:/ /github.com/imlixinyang/HiSD
FLAVR: การแสดงวิดีโอ Flow-Agnostic สำหรับการแก้ไขเฟรมอย่างรวดเร็ว https://arxiv.org/pdf/2012.08512.pdf https://tarun005.github.io/FLAVR/Code https://tarun005.github.io/FLAVR/
Patch-NetVLAD: การผสมผสานหลายระดับของตัวอธิบายระดับท้องถิ่นทั่วโลกเพื่อการจดจำสถานที่ Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer https://arxiv.org/abs/2103.01486
ความลึกจากการเคลื่อนไหวของกล้องและการตรวจจับวัตถุ Brent A. Griffin, Jason J. Corso https://arxiv.org/abs/2103.01468
UP-DETR: การฝึกอบรมล่วงหน้าแบบไม่มีผู้ดูแลสำหรับการตรวจจับวัตถุด้วย Transformers https://arxiv.org/pdf/2011.09094.pdf
การฟื้นฟูภาพแบบก้าวหน้าหลายขั้นตอน https://arxiv.org/abs/2102.02808 https://github.com/swz30/MPRNet
การเรียนรู้ที่มีการควบคุมดูแลไม่ดีสำหรับโฟลว์ฉาก 3 มิติที่เข้มงวด https://arxiv.org/pdf/2102.08945.pdf https://arxiv.org/pdf/2102.08945.pdf https://3dsceneflow.github.io/
การสำรวจจุดแข็งเสริมของการเป็นตัวแทนที่ไม่แปรเปลี่ยนและเทียบเท่าสำหรับการเรียนรู้เพียงไม่กี่ครั้ง Mamshad Nayeem Rizve, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah https://arxiv.org/abs/2103.01315
การติดป้ายกำกับ ImageNet ใหม่: จากป้ายกำกับเดียวไปจนถึงหลายป้ายกำกับ จากทั่วโลกไปจนถึงป้ายกำกับที่แปลเป็นภาษาท้องถิ่น https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet
ทบทวนขนาดช่องสัญญาณเพื่อการออกแบบโมเดลที่มีประสิทธิภาพ https://arxiv.org/abs/2007.00992 https://github.com/clovaai/rexnet
เครือข่ายหยาบละเอียดสำหรับการตรวจจับกิจกรรมชั่วคราวในวิดีโอ Kumara Kahatapitiya, Michael S. Ryoo https://arxiv.org/abs/2103.01302
โปรแกรมจำลองเชิงลึกสำหรับการเคลื่อนไหวรองของตัวละคร 3 มิติ Mianlun Zheng, Yi Zhou, Duygu Ceylan, Jernej Barbic https://arxiv.org/abs/2103.01261
การจำแนกประเภทแอตทริบิวต์ที่ยุติธรรมผ่านการดีไบอัสพื้นที่แฝง https://arxiv.org/abs/2012.01469 https://github.com/princetonvisualai/gan-debiasing https://princetonvisualai.github.io/gan-debiasing/
การรวมค่าแสงอัตโนมัติสำหรับการกำจัดเงาภาพเดียว Lan Fu, Changqing Zhou, Qing Guo, Felix Juefei-Xu, Hongkai Yu, Wei Feng, Yang Liu, Song Wang https://arxiv.org/abs/2103.01255
Less is More: CLIPBERT สำหรับการเรียนรู้ผ่านวิดีโอและภาษาผ่านการสุ่มตัวอย่างแบบกระจาย https://arxiv.org/pdf/2102.06183.pdf https://github.com/jayleicn/ClipBERT
MetaSCI: การสร้างใหม่ที่ปรับขนาดได้และปรับเปลี่ยนได้สำหรับการตรวจจับการบีบอัดวิดีโอ Zhengjue Wang, Hao Zhang, Ziheng Cheng, Bo Chen, Xin Yuan https://arxiv.org/abs/2103.01786
AttentiveNAS: การปรับปรุงการค้นหาสถาปัตยกรรมประสาทผ่าน Attentive https://arxiv.org/pdf/2011.09011.pdf
แบบจำลองความน่าจะเป็นการแพร่กระจายสำหรับการสร้างคลาวด์พอยต์ 3 มิติ Shitong Luo, Wei Hu https://arxiv.org/abs/2103.01458
มีอะไรมากกว่าที่ตาเห็น: การตรวจจับและติดตามหลายวัตถุแบบควบคุมตนเองพร้อมเสียง โดยการกลั่นกรองความรู้หลายรูปแบบ Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada https://arxiv.org/abs/2103.01353 http://rl. uni-freiburg.de/research/multimodal-distill
การเข้ารหัสอย่างมีสไตล์: ตัวเข้ารหัส StyleGAN สำหรับการแปลรูปภาพเป็นรูปภาพ https://arxiv.org/abs/2008.00951 https://github.com/eladrich/pixel2style2pixel https://eladrich.github.io/pixel2style2pixel/
การเรียนรู้นโยบายที่ขับเคลื่อนด้วยเป้าหมายแบบลำดับชั้นและสังเกตได้บางส่วนพร้อมกราฟเชิงสัมพันธ์เป้าหมาย Xin Ye, Yezhou Yang https://arxiv.org/abs/2103.01350
RepVGG: ทำให้ ConvNets สไตล์ VGG ยอดเยี่ยมอีกครั้ง https://arxiv.org/abs/2101.03697 https://github.com/megvii-model/RepVGG
การตีความของหม้อแปลงไฟฟ้า นอกเหนือจากการแสดงความสนใจ https://arxiv.org/pdf/2012.09838.pdf https://github.com/hila-chefer/Transformer-Explainability
PREDATOR: การลงทะเบียน 3D Point Clouds ที่มีการทับซ้อนกันต่ำ https://arxiv.org/pdf/2011.13005.pdf https://github.com/ShengyuH/OverlapPredator https://overlappredator.github.io/
การกลั่นความรู้แบบหลายความละเอียดเพื่อการตรวจจับความผิดปกติ https://arxiv.org/abs/2011.11108
การทำให้ข้อมูลบริสุทธิ์โดยไม่มีป้ายกำกับในทางบวกสำหรับการตรวจจับวัตถุ
การกลั่นกรองความรู้โดยปราศจากข้อมูลสำหรับภาพที่มีความละเอียดสูงสุด
การตัดแต่งเครือข่ายไดนามิกแบบ Manifold Regularized
หม้อแปลงประมวลผลภาพที่ได้รับการฝึกอบรมล่วงหน้า https://arxiv.org/pdf/2012.00364.pdf
ReNAS: การประเมินเชิงสัมพันธ์ของการค้นหาสถาปัตยกรรมประสาท https://arxiv.org/pdf/1910.01523.pdf
AdderSR: สู่ภาพที่ประหยัดพลังงานเป็นพิเศษ https://arxiv.org/pdf/2009.08891.pdf https://github.com/huawei-noah/AdderNet
การเรียนรู้เครือข่ายนักศึกษาในป่า https://arxiv.org/pdf/1904.01186.pdf https://github.com/huawei-noah/DAFL https://www.zhihu.com/question/446299297
HourNAS: การค้นหาสถาปัตยกรรมประสาทที่รวดเร็วอย่างยิ่งผ่านเลนส์นาฬิกาทราย https://arxiv.org/pdf/2005.14446.pdf
การฝังความน่าจะเป็นสำหรับการดึงข้าม Modal https://arxiv.org/abs/2101.05068
PLOP: การเรียนรู้โดยไม่ลืมการแบ่งส่วนความหมายอย่างต่อเนื่อง https://arxiv.org/abs/2011.11390
Rainbow Memory: การเรียนรู้อย่างต่อเนื่องด้วยความทรงจำจากตัวอย่างที่หลากหลาย
การใช้ประโยชน์จากมิติเชิงพื้นที่ของแฝงใน GAN สำหรับการแก้ไขภาพแบบเรียลไทม์
1.GhostNet: คุณสมบัติเพิ่มเติมจากการดำเนินงานราคาถูก (สถาปัตยกรรมที่เหนือกว่า Mobilenet v3) ลิงก์กระดาษ: https://arxiv.org/pdf/1911.11907arxiv.org รุ่น (ประสิทธิภาพที่น่าทึ่งบน ARM CPU): https://github com/iamhankai /ghostnetgithub.com
เราเอาชนะ SOTA Lightweight CNNs อื่น ๆ เช่น Mobilenetv3 และ FBNET
Addernet: เราต้องการการทวีคูณในการเรียนรู้อย่างลึกซึ้งหรือไม่
โดเมนความถี่กะทัดรัด 3D เครือข่ายประสาทสัมผัส (3DCNN การบีบอัด) ลิงค์กระดาษ: https://arxiv.org/pdf/1909.04977arxiv.org รหัสโอเพ่นซอร์ส: https://github.com/huawei-noah/carsgithub.com
ผู้ประเมินกึ่งผู้ดูแลสถาปัตยกรรมประสาท (ตัวทำนายความแม่นยำของเครือข่ายประสาท) NAS)
Hit-Detector: สถาปัตยกรรมทรินิตี้ลำดับชั้นค้นหาการตรวจจับวัตถุ (การตรวจจับ NAS) การค้นหาหัวกระดูกสันหลังคอด้วยกัน, Trinity
รถยนต์: วิวัฒนาการอย่างต่อเนื่องสำหรับการค้นหาสถาปัตยกรรมระบบประสาทที่มีประสิทธิภาพ (NAS) มีประสิทธิภาพมีข้อได้เปรียบหลายประการของความแตกต่างและวิวัฒนาการและสามารถส่งออกการวิจัยด้านหน้า Pareto
ในการจำแนกประเภทที่ไม่ได้ใช้งานใน Gan (Pu+Gan)
การเรียนรู้ Multiview 3d Point Cloud การลงทะเบียน (3D Point Cloud) ลิงค์กระดาษ: arxiv.org/abs/2001.05119
การปรับโดเมนหลายรูปแบบสำหรับลิงค์การจดจำการกระทำที่ละเอียด: arxiv.org/abs/2001.09691
Action Modifiers: การเรียนรู้จากคำวิเศษณ์ในลิงค์วิดีโอการเรียนการสอน: arxiv.org/abs/1912.06617
Polarmask: การแบ่งส่วนอินสแตนซ์ของการถ่ายภาพเดียวกับการเป็นตัวแทนขั้ว (การสร้างแบบจำลองการแบ่งส่วนอินสแตนซ์) ลิงค์กระดาษ: arxiv.org/abs/1909.13226 การตีความกระดาษ: https://zhuanlan.zhihu.com/p/84890413 ซอร์สโค้ดโอเพ่นซอร์ส: // com/xieenze/polarmask
ทบทวนการประมาณประสิทธิภาพในการค้นหาสถาปัตยกรรมประสาท (NAS) เนื่องจากส่วนที่ใช้เวลานานของการค้นหาสถาปัตยกรรมระบบประสาทที่ชาญฉลาดคือส่วนการประมาณประสิทธิภาพบทความนี้พบพารามิเตอร์ที่ดีที่สุดสำหรับบล็อก NAS ที่ฉลาดซึ่งเร็วขึ้นและมีความเกี่ยวข้องมากขึ้น
การจัดจำหน่ายการจัดประสานการประสานงานประสานงานสำหรับการประมาณการของมนุษย์โพสต์กระดาษลิงค์: arxiv.org/abs/1910.06278 GitHub: https://github.com/ilovepose/darkpose ทีมผู้แต่งโฮมเพจ: https://ilovepose.github.io/ Coco/Coco/Coco/Coco/Coco
https://arxiv.org/abs/2002.12204
https://arxiv.org/abs/2002.11297
https://arxiv.org/abs/2002.12259
https://arxiv.org/abs/2002.12213
https://arxiv.org/abs/2002.12212
6. สร้างกราฟฉากที่เป็นกลางจากการฝึกอบรมลำเอียง
https://arxiv.org/abs/2002.11949
https://arxiv.org/abs/2002.11930
https://arxiv.org/abs/2002.11927
https://arxiv.org/abs/2002.11841
https://arxiv.org/abs/1912.03330
https://arxiv.org/abs/2002.11812
https://arxiv.org/abs/1911.07450
https://arxiv.org/abs/2002.11616
https://arxiv.org/abs/2002.11566
https://arxiv.org/abs/2002.11359
https://arxiv.org/pdf/2002.10638.pdf
https://arxiv.org/pdf/1911.11907.pdf
https://arxiv.org/pdf/1912.13200.pdf
https://arxiv.org/abs/1909.04977
https://arxiv.org/abs/1911.06634
https://arxiv.org/pdf/2001.05868.pdf
https://arxiv.org/pdf/1909.13226.pdf
https://arxiv.org/pdf/1811.07073.pdf
https://arxiv.org/pdf/1906.03444.pdf
https://arxiv.org/abs/2002.10310
https://arxiv.org/abs/1906.03444
https://geometry.cs.ucl.ac.uk/projects/2020/neuraltexture/
https://arxiv.org/abs/2002.11576
https://arxiv.org/pdf/1912.06445.pdf
https://arxiv.org/pdf/1912.02184