Tautan: https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA Kode ekstraksi: vwkx
pembaruan: 2022/03/02 Perbarui beberapa interpretasi artikel
MHFormer: Transformator Multi-Hipotesis untuk Estimasi Pose Manusia 3D
Makalah: https://arxiv.org/pdf/2111.12707.pdf
Kode: https://github.com/Vegetebird/MHFormer
Makalah ini bertujuan untuk menggunakan bentuk konvolusional penuh untuk mengekspresikan dan memprediksi objek dan lingkungan sekitar secara seragam, sehingga mencapai segmentasi panorama yang akurat dan efisien. Secara khusus, artikel ini mengusulkan generator kernel konvolusi yang mengkodekan informasi semantik setiap objek dan setiap jenis lingkungan ke dalam kernel konvolusi yang berbeda, dan menggabungkannya dengan peta fitur resolusi tinggi untuk secara langsung menampilkan hasil segmentasi setiap latar depan dan latar belakang. Melalui pendekatan ini, perbedaan individu dan konsistensi semantik objek dan lingkungan masing-masing dapat dipertahankan. Metode ini mencapai hasil mutakhir dalam kecepatan dan akurasi pada beberapa kumpulan data segmentasi panorama. Kata kunci: ekspresi terpadu, konvolusi dinamis, segmentasi panoptik arxiv: https://arxiv.org/abs/2012.00720 github: https://github.com/yanwei-li/PanopticFCN
kertas lisan
FFB6D mengusulkan kerangka pembelajaran representasi RGBD fusi dua arah jaringan penuh dan menerapkannya pada masalah estimasi pose 6D. Kami menemukan bahwa metode pembelajaran representasi yang ada gagal memanfaatkan dua sumber data yang saling melengkapi, yaitu informasi penampakan dalam RGB dan informasi geometris dalam peta kedalaman (point cloud).
Untuk tujuan ini, kami merancang modul fusi padat dua arah dan menerapkannya pada setiap lapisan pengkodean dan decoding CNN dan jaringan point cloud. Mekanisme fusi dua arah aliran penuh ini memungkinkan kedua jaringan memanfaatkan sepenuhnya informasi pelengkap lokal dan global yang diambil satu sama lain, sehingga memperoleh representasi yang lebih baik untuk tugas prediksi hilir. Selain itu, dalam hal pemilihan representasi keluaran, kami merancang algoritma pemilihan titik kunci SIFT-FPS berdasarkan tekstur dan informasi geometris item, yang menyederhanakan kesulitan jaringan menemukan titik-titik kunci dan meningkatkan akurasi pose. Metode kami mencapai peningkatan signifikan pada berbagai tolok ukur. Dan jaringan tulang punggung pembelajaran representasi RGBD ini dapat diterapkan pada lebih banyak tugas visual dengan RGBD sebagai masukan dengan mengalirkan jaringan prediksi yang berbeda. Kata Kunci: Pembelajaran representasi RGBD, visi 3D, estimasi pose 6D PDF: https://arxiv.org/abs/2103.02242 kode: https://github.com/ethnhe/FFB6D
Ilmu pengetahuan dan teknologi selalu berkembang pesat. Kami telah "menghidupkan kembali" arsitektur jaringan saraf konvolusional minimalis saluran tunggal gaya VGG, dengan konvolusi 3x3 hingga akhir. Jaringan ini telah mencapai tingkat SOTA dalam kecepatan dan kinerja, dan memiliki tingkat akurasi lebih dari 80%. GambarNet.
Untuk mengatasi kesulitan dalam melatih arsitektur gaya VGG, kami menggunakan parameterisasi ulang struktural untuk membangun pemetaan identitas dan cabang konvolusi 1x1 dalam model selama pelatihan, dan kemudian menggabungkannya menjadi 3x3 setelah pelatihan, sehingga modelnya hanya berisi konvolusi 3x3 selama inferensi. Arsitektur ini tidak memiliki struktur percabangan, sehingga sangat paralel dan sangat cepat. Dan karena bagian utama hanya memiliki satu operator, "3x3-ReLU", ini sangat cocok untuk perangkat keras yang disesuaikan. Kata kunci: re-parameterisasi struktural, arsitektur minimalis, model efisien https://arxiv.org/abs/2101.03697
Artikel ini mengusulkan operasi konvolusi baru—Konvolusi Sadar Wilayah Dinamis (DRConv: Konvolusi Sadar Wilayah Dinamis), yang dapat mengalokasikan kernel konvolusi yang disesuaikan ke area bidang berbeda berdasarkan kesamaan fitur. Dibandingkan dengan konvolusi tradisional, metode konvolusi ini sangat meningkatkan kemampuan pemodelan keragaman informasi semantik gambar. Lapisan konvolusional standar dapat meningkatkan jumlah kernel konvolusi untuk mengekstrak lebih banyak elemen visual, namun akan mengakibatkan biaya komputasi yang lebih tinggi. DRConv menggunakan pengalokasi yang dapat dipelajari untuk mentransfer kernel konvolusi yang meningkat secara bertahap ke dimensi planar, yang tidak hanya meningkatkan kemampuan representasi konvolusi, namun juga mempertahankan biaya komputasi dan invarian terjemahan.
DRConv adalah metode yang efektif dan elegan untuk menangani distribusi informasi semantik yang kompleks dan beragam. Ini dapat menggantikan konvolusi standar di jaringan mana pun yang ada dengan karakteristik plug-and-play, dan memiliki peningkatan kinerja yang signifikan untuk promosi jaringan ringan. Makalah ini mengevaluasi DRConv pada berbagai model (seri MobileNet, ShuffleNetV2, dll.) dan tugas (klasifikasi, pengenalan wajah, deteksi, dan segmentasi). Dalam klasifikasi ImageNet, ShuffleNetV2-0,5× berbasis DRConv pada tingkat perhitungan 46M Mencapai kinerja 67,1%. , peningkatan 6,3% dibandingkan baseline. https://arxiv.org/abs/2003.12243
Kami mengusulkan modul dasar jaringan konvolusional (DBB) untuk memperkaya struktur mikro model selama pelatihan tanpa mengubah struktur makronya, sehingga meningkatkan kinerjanya. Modul ini dapat dikonversi secara setara menjadi konvolusi melalui parameterisasi ulang struktural setelah pelatihan, sehingga tidak menimbulkan overhead inferensi tambahan. gambar
Kami telah merangkum enam struktur yang dapat ditransformasikan secara setara, termasuk konvolusi berkelanjutan 1x1-KxK, pengumpulan rata-rata, dll., dan menggunakan enam transformasi ini untuk memberikan contoh DBB representatif yang mirip dengan Inception, yang dapat digunakan pada berbagai arsitektur. Keduanya mencapai hasil yang signifikan peningkatan kinerja. Kami telah mengkonfirmasi melalui eksperimen bahwa "non-linearitas selama pelatihan" (tetapi linier selama inferensi, seperti BN) dan "hubungan yang beragam" (misalnya, 1x1+3x3 lebih baik daripada 3x3+3x3) adalah kunci efektivitas DBB . Kata Kunci: Parameterisasi ulang struktur, tanpa overhead penalaran, perbaikan tanpa rasa sakit
Sebagian besar pekerjaan sebelumnya berfokus pada kinerja sampel kelas kecil dengan mengorbankan kinerja sampel kelas besar. Makalah ini mengusulkan detektor target sampel kelas kecil tanpa melupakan efek, yang dapat mencapai kinerja kategori sampel kelas kecil yang lebih baik tanpa kehilangan kinerja kategori sampel kelas besar. Dalam makalah ini, kami menemukan bahwa detektor yang telah dilatih sebelumnya jarang menghasilkan prediksi positif palsu pada kelas yang tidak terlihat, dan kami juga menemukan bahwa RPN bukanlah komponen kelas-agnostik yang ideal. Berdasarkan dua temuan ini, kami merancang dua struktur sederhana dan efektif, Detektor Ulang dan RPN Bias-Balanced, yang dapat mencapai deteksi target sampel kelas kecil tanpa melupakan efek hanya dengan menambahkan sejumlah kecil parameter dan waktu inferensi. Kata Kunci: pembelajaran sampel kecil, deteksi target
Makalah ini mengusulkan kerangka kerja terpadu untuk menangani tugas pengenalan visual yang berisi distribusi data ekor panjang. Kami pertama-tama melakukan analisis eksperimental terhadap metode dua tahap yang ada untuk menangani masalah jangka panjang, dan menemukan hambatan kinerja utama dari metode yang ada. Berdasarkan analisis eksperimental, kami mengusulkan strategi penyelarasan distribusi untuk menyelesaikan tugas visi jangka panjang secara sistematis.
Framework dirancang berdasarkan metode dua tahap. Pada tahap pertama, strategi instance-balanced sampling digunakan untuk pembelajaran representasi fitur (representation learning). Pada tahap kedua, pertama-tama kami merancang fungsi penyelarasan input-aware untuk mengoreksi skor data input. Pada saat yang sama, untuk memperkenalkan distribusi kumpulan data apriori, kami merancang skema pembobotan ulang umum untuk menangani berbagai skenario tugas visual seperti klasifikasi gambar, segmentasi semantik, deteksi objek, dan segmentasi instans. Kami memverifikasi metode kami pada empat tugas dan mencapai peningkatan kinerja yang signifikan pada setiap tugas. Kata kunci: klasifikasi citra, segmentasi semantik, deteksi objek, segmentasi instance
Untuk pertama kalinya, makalah ini menghilangkan pasca-pemrosesan NMS (penekanan non-maksimum) pada detektor target konvolusional penuh dan mencapai pelatihan ujung ke ujung. Kami menganalisis metode deteksi objek satu tahap arus utama dan menemukan bahwa strategi alokasi label satu-ke-banyak tradisional adalah kunci dari metode ini yang mengandalkan NMS, dan dengan demikian mengusulkan strategi alokasi label satu-ke-satu yang sadar akan prediksi. Selain itu, untuk meningkatkan kinerja penetapan label satu-ke-satu, kami mengusulkan modul yang meningkatkan kemampuan representasi fitur dan fungsi kerugian tambahan yang mempercepat konvergensi model. Metode kami mencapai kinerja yang sebanding dengan metode deteksi objek satu tahap arus utama tanpa NMS. Pada pemandangan padat, penarikan kembali metode kami melebihi batas atas teoritis metode deteksi objek yang mengandalkan NMS. Kata kunci: deteksi end-to-end, penetapan label, jaringan konvolusional penuh https://arxiv.org/abs/2012.03544
Kami mengusulkan strategi pencocokan sampel deteksi target berdasarkan teori transmisi optimal, yang menggunakan informasi global untuk menemukan hasil pencocokan sampel yang optimal. Dibandingkan dengan teknologi pencocokan sampel yang ada, teknologi ini memiliki keunggulan sebagai berikut: 1). Hasil pencocokan yang optimal secara global dapat membantu detektor dilatih secara stabil dan efisien, dan pada akhirnya mencapai kinerja deteksi optimal pada kumpulan data COCO. 2). Berbagai skenario yang dapat diterapkan. Algoritme deteksi target yang ada perlu mendesain ulang strategi atau menyesuaikan parameter ketika menghadapi pemandangan kompleks seperti target padat atau oklusi parah. Model transmisi optimal mencakup proses menemukan solusi optimal dalam proses pemodelan global -Performa canggih dalam berbagai adegan dengan target padat dan oklusi parah, serta memiliki potensi penerapan yang besar. Kata Kunci: deteksi target, transmisi optimal, strategi pencocokan sampel
Karena penetapan label detektor satu tahap bersifat statis dan tidak mempertimbangkan informasi global dari bingkai objek, kami mengusulkan detektor objek berdasarkan pengambilan sampel distribusi massa objek. Pada artikel ini, kami mengusulkan modul pengkodean distribusi kualitas QDE dan modul pengambilan sampel distribusi kualitas QDS. Dengan mengekstraksi fitur regional dari kerangka target dan memodelkan distribusi kualitas kerangka prediksi berdasarkan model campuran Gaussian, kita dapat memilih secara dinamis. nilai positif dari bingkai deteksi. Metode ini hanya melibatkan alokasi label pada fase pelatihan, dan dapat mencapai hasil terbaik saat ini pada beberapa kumpulan data seperti COCO. Kata kunci: pemberian label
Metode FSCE yang diusulkan dalam makalah ini bertujuan untuk memecahkan masalah deteksi objek sampel kecil dari perspektif optimalisasi representasi fitur. Dalam tugas deteksi objek sampel kecil, jumlah sampel target terbatas, dan klasifikasi sampel target yang benar sering kali berdampak besar pada performa akhir. FSCE menggunakan gagasan pembelajaran kontrasif untuk menyandikan kerangka kandidat yang relevan dan mengoptimalkan representasi fiturnya, memperkuat kekompakan antar kelas dan penolakan fitur antar kelas. Metode terakhir telah ditingkatkan secara efektif pada kumpulan data COCO dan Pascal VOC . Kata kunci: deteksi target sampel kecil, makalah pembelajaran perbandingan link: https://arxiv.org/abs/2103.05950
Algoritme NAS arus utama yang ada melakukan pencarian model melalui kinerja prediksi subjaringan pada set verifikasi. Namun, dalam mekanisme berbagi parameter, terdapat perbedaan besar antara kinerja prediksi pada set verifikasi dan kinerja model sebenarnya. Untuk pertama kalinya, kami mematahkan paradigma evaluasi model berdasarkan kinerja prediksi, mengevaluasi subjaringan dari perspektif kecepatan konvergensi model, dan berhipotesis bahwa semakin cepat konvergensi model, semakin tinggi kinerja prediksi terkait.
Berdasarkan kerangka konvergensi model, kami menemukan bahwa konvergensi model tidak ada hubungannya dengan label gambar yang sebenarnya, dan selanjutnya mengusulkan paradigma NAS baru-RLNAS yang menggunakan label acak untuk pelatihan jaringan super. RLNAS telah diverifikasi di beberapa kumpulan data (NAS-Bench-201, ImageNet) dan beberapa ruang pencarian (DARTS, seperti MobileNet). Hasil eksperimen menunjukkan bahwa RLNAS dapat mencapai kinerja NAS yang ada hanya dengan menggunakan struktur yang dicari untuk label acak. tingkat SOTA. RLNAS tampaknya berlawanan dengan intuisi pada awalnya, namun hasil bagus yang tidak diduga memberikan landasan yang lebih kuat bagi komunitas NAS dan semakin menginspirasi pemikiran tentang sifat NAS. Kata kunci: penelusuran arsitektur jaringan syaraf tiruan, asumsi konvergensi model, label acak https://arxiv.org/abs/2101.11834
Algoritme estimasi pose manusia saat ini menggunakan regresi peta panas untuk mendapatkan titik gabungan akhir. Metode ini biasanya menggunakan kernel Gaussian 2D deviasi standar tetap yang mencakup semua titik kunci kerangka untuk membuat peta panas sebenarnya, dan menggunakan peta panas sebenarnya untuk mengawasi model. Karena peta panas nyata dari titik gabungan orang yang berbeda dibuat menggunakan kernel Gaussian yang sama, metode ini tidak mempertimbangkan perbedaan skala orang yang berbeda, yang akan menyebabkan ambiguitas label dan mempengaruhi efek model.
Makalah ini mengusulkan regresi peta panas adaptif skala yang secara adaptif dapat menghasilkan deviasi standar yang diperlukan untuk membuat label berdasarkan ukuran tubuh manusia, sehingga membuat model lebih kuat untuk tubuh manusia dengan skala berbeda; menyeimbangkan sampel positif dan negatif, mengeksplorasi lebih lanjut efek regresi peta panas adaptif skala. Makalah ini akhirnya mencapai kinerja paling canggih dalam estimasi pose manusia dari bawah ke atas. Kata kunci: Estimasi pose manusia, bottom-up, regresi peta panas adaptif https://arxiv.org/abs/2012.15175 https://github.com/greatlog/SWAHR-HumanPose
GID mengusulkan metode distilasi baru berdasarkan tugas deteksi. Dengan mengekstraksi contoh umum (GI) dari masing-masing guru dan siswa, modul GISM diusulkan untuk secara adaptif memilih contoh dengan perbedaan besar untuk penyulingan berbasis fitur, berbasis hubungan, dan berbasis respons. Metode ini menerapkan distilasi pengetahuan relasional ke kerangka deteksi untuk pertama kalinya, dan menyatukan target distilasi dari pertimbangan independen distilasi sampel positif dan negatif ke distilasi GI yang lebih penting. Prosesnya tidak bergantung pada GT dan mencapai SOTA. Kata Kunci: deteksi target, penyulingan pengetahuan https://arxiv.org/abs/2103.02340
Kami mengusulkan fungsi aktivasi baru ACON (aktif atau tidak), yang secara adaptif dapat belajar untuk mengaktifkan atau tidak. ACON menjalin hubungan antara ReLU dan Swish: Kami menemukan bahwa meskipun kedua bentuk tersebut sangat berbeda, Swish adalah bentuk ReLU yang halus. Berdasarkan penemuan ini, kami selanjutnya mengusulkan lebih banyak varian, seperti meta-acon, yang mencapai peningkatan bebas biaya dua kali lipat dibandingkan SENet. Kami memverifikasi kinerja generalisasi fungsi aktivasi yang ringkas dan efektif ini pada banyak tugas. Kata kunci: fungsi aktivasi, jaringan syaraf tiruan https://arxiv.org/abs/2009.04759
Dalam artikel ini, kami pertama kali menganalisis peran FPN dalam detektor satu tahap RetinaNet. Melalui eksperimen, kami menemukan bahwa gagasan membagi dan menaklukkan dengan menetapkan objek dengan skala berbeda ke tingkat deteksi berbeda di FPN memiliki pengaruh yang besar. berdampak pada hasil deteksi. Dari perspektif pengoptimalan, ide ini menguraikan masalah pengoptimalan dalam pendeteksian, menjadikan pembelajaran pengoptimalan lebih sederhana dan meningkatkan akurasi pendeteksian. Namun, desain FPN berdasarkan fitur multi-level memperumit struktur jaringan metode pendeteksian, memperkenalkan penghitungan tambahan, dan memperlambat kecepatan pendeteksian. Untuk menghindari masalah di atas, makalah ini mengusulkan untuk mendeteksi objek dari semua skala pada satu tingkat, pada saat yang sama, untuk memecahkan masalah sulitnya optimasi dalam deteksi fitur tingkat tunggal, solusi lubang encoder dan pencocokan seimbang adalah. diajukan.
Akurasi pendeteksian detektor berbasis fitur tingkat tunggal YOLOF yang diusulkan dalam artikel ini sebanding dengan RetinaNet berbasis FPN ketika hanya menggunakan fitur C5, dan kecepatan pendeteksiannya 2,5 kali lipat dari RetinaNet. Selain itu, dibandingkan DETR yang juga hanya menggunakan fitur C5, YOLOF mampu mencapai performa sebanding dengan konvergensi lebih cepat (7x). Kata kunci: deteksi target satu tahap, fitur skala tunggal, keseimbangan antara kecepatan dan akurasi deteksi https://arxiv.org/abs/2103.09460 https://github.com/megvii-model/YOLOF
Meningkatkan kinerja detektor tanpa meningkatkan biaya pelabelan adalah tujuan dari penelitian ini. Makalah ini memilih sejumlah kecil kotak pembatas dan sejumlah besar anotasi titik untuk melatih detektor. Anotasi titik dipilih karena kaya akan informasi: berisi informasi lokasi dan kategori instance, dan biaya anotasinya rendah. Makalah ini mengusulkan Point DETR dengan memperluas encoder titik ke DETR. Kerangka keseluruhannya adalah: melatih Point DETR melalui data kotak pembatas; menyandikan anotasi titik ke dalam kueri dan memprediksi kotak semu, melatih model siswa melalui data kotak pembatas dan kotak semu; Pada kumpulan data COCO, dengan hanya menggunakan 20% data yang dianotasi sepenuhnya, detektor kami mencapai 33,3AP, melebihi garis dasar sebesar 2,0AP. Kata Kunci: deteksi target, semi supervisi, pengawasan lemah
Lensa sudut lebar disukai karena bidang pandangnya yang luas, namun lensa ini mengalami distorsi lensa dan distorsi perspektif, yang terlihat dalam bentuk garis latar belakang yang melengkung, peregangan, tekanan dan kemiringan wajah, dll. Untuk mencapai tujuan ini, makalah ini membangun jaringan de-distorsi kaskade yang terdiri dari jaringan koreksi garis, jaringan koreksi wajah, dan modul transisi, sehingga latar belakang menyajikan proyeksi perspektif dan area wajah menyajikan proyeksi stereoskopis, dan transisi mulus antara keduanya. area, sehingga menghilangkan berbagai distorsi dengan tetap menjaga FOV. Metode ini tidak memerlukan parameter kamera, dapat mencapai kinerja real-time, dan melampaui metode yang ada baik dalam evaluasi kualitatif maupun kuantitatif. Kata kunci: koreksi distorsi potret sudut lebar, jaringan deep cascade
Kami mengusulkan metode pembelajaran aliran optik tanpa pengawasan baru, UPFlow. Kami menemukan bahwa metode aliran optik tanpa pengawasan saat ini memiliki dua masalah dalam pemrosesan piramida multi-skala: masalah ambiguitas interpolasi dalam proses pengambilan sampel aliran dan masalah kurangnya pengawasan aliran multi-skala. Dalam hal ini, kami mengusulkan modul upsampling mandiri yang menggunakan aliran interpolasi dan peta interpolasi untuk mengubah mekanisme interpolasi upsampling, sehingga mencapai upsampling yang lebih halus. Selain itu, kami mengusulkan untuk menggunakan hasil akhir jaringan sebagai label semu untuk mengawasi pembelajaran aliran multi-skala. Berdasarkan peningkatan ini, metode kami dapat memperoleh hasil aliran optik yang lebih jernih dan tajam. Kami melakukan eksperimen pada beberapa kumpulan data benchmark aliran optik, termasuk Sintel, KITTI 2012, dan KITTI 2015. Kinerja UPFlow melebihi algoritma aliran optik tanpa pengawasan terbaik saat ini sekitar 20%. Kata kunci: estimasi aliran optik, unsupervised learning https://arxiv.org/abs/2012.00212
NBNet adalah kerangka kerja yang memecahkan masalah pengurangan noise gambar. Kami mendekati masalah ini dengan perspektif baru: proyeksi adaptif gambar. Secara khusus, kita mempelajari sekumpulan subruang pada ruang fitur, dan penghilangan noise gambar dapat dilakukan dengan memilih subruang sinyal yang sesuai dan memproyeksikannya ke subruang ini. Dibandingkan dengan struktur jaringan satu volume sebelumnya, NBNet dapat secara alami dan lebih efisien mengekstraksi dan memanfaatkan informasi struktural dalam gambar melalui proyeksi, terutama area tekstur yang lemah, untuk membantu kami memulihkan gambar. Melalui metode sederhana tersebut, NBNet mencapai SOTA pada dua benchmark DND dan SIDD dengan perhitungan yang lebih sedikit. Kata Kunci: Denoising gambar, subruang https://arxiv.org/abs/2012.15028
Karya ini memperkenalkan "rentang dinamis", sebuah atribut penting dalam metrik, ke dalam pembelajaran metrik mendalam, sehingga menghasilkan tugas baru yang disebut "pembelajaran metrik dinamis". Kami menemukan bahwa pengukuran kedalaman sebelumnya sebenarnya hanya memuat satu skala, seperti hanya membedakan apakah wajah dan pejalan kaki serupa atau tidak. Betapapun akuratnya alat ukur tersebut, alat tersebut tidak fleksibel dan penggunaannya terbatas dalam penggunaan sebenarnya. Faktanya, alat ukur kita sehari-hari biasanya memiliki rentang dinamis. Misalnya, penggaris selalu memiliki beberapa skala (seperti 1mm, 1cm, atau bahkan 10cm) untuk mengukur objek dengan skala berbeda. Kami percaya bahwa waktunya telah tiba bagi bidang pembelajaran metrik mendalam untuk memperkenalkan rentang dinamis. Karena konsep visual itu sendiri memiliki ukuran yang berbeda. “Hewan” dan “tumbuhan” semuanya berhubungan dengan skala besar, sedangkan “rusa” berhubungan dengan skala yang relatif kecil. Dalam skala kecil, dua rusa mungkin terlihat sangat berbeda, tetapi dalam skala besar, dua rusa yang sama harus dianggap sangat mirip.
Untuk tujuan ini, kami mengusulkan tugas pembelajaran metrik dinamis ini, yang memerlukan pembelajaran ruang metrik tunggal yang secara bersamaan dapat memberikan ukuran kesamaan untuk konsep visual dengan ukuran semantik yang berbeda. Selanjutnya, kami membuat tiga kumpulan data multiskala dan mengusulkan metode dasar yang sederhana. Kami percaya bahwa rentang dinamis akan menjadi properti yang sangat diperlukan dalam pembelajaran metrik mendalam dan membawa perspektif baru serta skenario penerapan baru ke seluruh bidang pembelajaran metrik mendalam.
Jaringan Terintegrasi Geometri Anatomi Grafik 3D untuk Segmentasi Massa Pankreas, Diagnosis, dan Manajemen Pasien Kuantitatif
Pelacak Lesi Dalam: Memantau Lesi dalam Studi Pencitraan Longitudinal 4D https://arxiv.org/abs/2012.04872
Lokalisasi dan Identifikasi Vertebra Otomatis pada CT dengan Rektifikasi Tulang Belakang dan Optimasi dengan Kendala Anatomi https://arxiv.org/abs/2012.07947
CNN 3D dengan Resolusi Fitur Temporal Adaptif https://arxiv.org/abs/2011.08652
KeepAugment: Augmentasi Data Pelestarian Informasi Sederhana https://arxiv.org/pdf/2011.11778.pdf
Hijack-GAN: Penggunaan GAN Kotak Hitam Terlatih yang Tidak Disengaja https://arxiv.org/pdf/2011.14107.pdf
D-NeRF: Bidang Cahaya Neural untuk Pemandangan Dinamis https://arxiv.org/abs/2011.13961
Jaringan Kasar-Halus untuk Deteksi Aktivitas Temporal dalam Video
Lokalisasi Instance untuk Pra-Pelatihan Deteksi dengan Pengawasan Mandiri https://arxiv.org/pdf/2102.08318.pdf https://github.com/limbo0000/InstanceLoc
Menjawab Pertanyaan Visual Beralas dengan Pengawasan Lemah Menggunakan Kapsul
Segmentasi LiDAR Panoptik 4D https://arxiv.org/abs/2102.12472
Dogfight: Mendeteksi Drone dari Video Drone
Pembelajaran Aktif Beberapa Instance untuk Deteksi Objek https://github.com/yuantn/MIAL/raw/master/paper.pdf https://github.com/yuantn/MIAL
Mempertimbangkan Kembali Penyelarasan Representasi untuk Pengelompokan Multi-tampilan
Prediksi Multi-Langkah Simultan yang Diawasi Sendiri dari Dinamika Jalan dan Peta Biaya
Terjemahan Gambar-ke-gambar melalui Penguraian Gaya Hirarki Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, Xudong Mao, Feiyue Huang, Yongjian Wu, Rongrong Ji https://arxiv.org/abs/2103.01456 https:/ /github.com/imlixinyang/HiSD
FLAVR: Representasi Video Aliran-Agnostik untuk Interpolasi Bingkai Cepat https://arxiv.org/pdf/2012.08512.pdf https://tarun005.github.io/FLAVR/Code https://tarun005.github.io/FLAVR/
Patch-NetVLAD: Perpaduan Multi-Skala dari Deskriptor Lokal-Global untuk Pengenalan Tempat Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer https://arxiv.org/abs/2103.01486
Kedalaman dari Gerakan Kamera dan Deteksi Objek Brent A. Griffin, Jason J. Corso https://arxiv.org/abs/2103.01468
UP-DETR: Pra-pelatihan Tanpa Pengawasan untuk Deteksi Objek dengan Transformer https://arxiv.org/pdf/2011.09094.pdf
Restorasi Gambar Progresif Multi-Tahap https://arxiv.org/abs/2102.02808 https://github.com/swz30/MPRNet
Pembelajaran Aliran Adegan 3D Kaku yang Diawasi dengan Lemah https://arxiv.org/pdf/2102.08945.pdf https://arxiv.org/pdf/2102.08945.pdf https://3dsceneflow.github.io/
Menjelajahi Kekuatan Komplementer dari Representasi Invarian dan Ekuivalen untuk Pembelajaran Sedikit-Shot Mamshad Nayeem Rizve, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah https://arxiv.org/abs/2103.01315
Memberi label ulang pada ImageNet: dari Label Tunggal ke Multi-Label, dari Label Global ke Label Terlokalisasi https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet
Memikirkan Kembali Dimensi Saluran untuk Desain Model yang Efisien https://arxiv.org/abs/2007.00992 https://github.com/clovaai/rexnet
Jaringan Kasar-Halus untuk Deteksi Aktivitas Temporal dalam Video Kumara Kahatapitiya, Michael S. Ryoo https://arxiv.org/abs/2103.01302
Emulator Mendalam untuk Gerakan Sekunder Karakter 3D Mianlun Zheng, Yi Zhou, Duygu Ceylan, Jernej Barbic https://arxiv.org/abs/2103.01261
Klasifikasi Atribut yang Adil melalui De-biasing Ruang Laten https://arxiv.org/abs/2012.01469 https://github.com/princetonvisualai/gan-debiasing https://princetonvisualai.github.io/gan-debiasing/
Penggabungan Eksposur Otomatis untuk Menghilangkan Bayangan Gambar Tunggal Lan Fu, Changqing Zhou, Qing Guo, Felix Juefei-Xu, Hongkai Yu, Wei Feng, Yang Liu, Song Wang https://arxiv.org/abs/2103.01255
Less is More: CLIPBERT untuk Pembelajaran Video dan Bahasa melalui Sparse Sampling https://arxiv.org/pdf/2102.06183.pdf https://github.com/jayleicn/ClipBERT
MetaSCI: Rekonstruksi Skalabel dan Adaptif untuk Penginderaan Kompresi Video Zhengjue Wang, Hao Zhang, Ziheng Cheng, Bo Chen, Xin Yuan https://arxiv.org/abs/2103.01786
AttentiveNAS: Meningkatkan Pencarian Arsitektur Neural melalui Attentive https://arxiv.org/pdf/2011.09011.pdf
Model Probabilistik Difusi untuk Generasi Awan Titik 3D Shitong Luo, Wei Hu https://arxiv.org/abs/2103.01458
Ada Lebih dari yang Terlihat: Deteksi dan Pelacakan Multi-Objek dengan Pengawasan Mandiri dengan Menyuling Pengetahuan Multimodal Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada https://arxiv.org/abs/2103.01353 http://rl. uni-freiburg.de/research/multimodal-distill
Pengkodean dalam Gaya: Encoder StyleGAN untuk Terjemahan Gambar-ke-Gambar https://arxiv.org/abs/2008.00951 https://github.com/eladrich/pixel2style2pixel https://eladrich.github.io/pixel2style2pixel/
Pembelajaran Kebijakan Berbasis Tujuan yang Hierarki dan Dapat Diamati Sebagian dengan Grafik Relasional Tujuan Xin Ye, Yezhou Yang https://arxiv.org/abs/2103.01350
RepVGG: Membuat ConvNets ala VGG Hebat Lagi https://arxiv.org/abs/2101.03697 https://github.com/megvii-model/RepVGG
Interpretabilitas Transformer Melampaui Visualisasi Perhatian https://arxiv.org/pdf/2012.09838.pdf https://github.com/hila-chefer/Transformer-Explainability
PREDATOR: Pendaftaran Awan Titik 3D dengan Tumpang Tindih Rendah https://arxiv.org/pdf/2011.13005.pdf https://github.com/ShengyuH/OverlapPredator https://overlappredator.github.io/
Distilasi Pengetahuan Multiresolusi untuk Deteksi Anomali https://arxiv.org/abs/2011.11108
Pemurnian Data Positif Tanpa Label di Alam Liar untuk Deteksi Objek
Distilasi Pengetahuan Bebas Data Untuk Resolusi Super Gambar
Pemangkasan Jaringan Dinamis Teratur Manifold
Transformator Pemrosesan Gambar Pra-Terlatih https://arxiv.org/pdf/2012.00364.pdf
ReNAS: Evaluasi Relativistik Pencarian Arsitektur Neural https://arxiv.org/pdf/1910.01523.pdf
AdderSR: Menuju Resolusi Super Gambar Hemat Energi https://arxiv.org/pdf/2009.08891.pdf https://github.com/huawei-noah/AdderNet
Mempelajari Jaringan Siswa di Alam Liar https://arxiv.org/pdf/1904.01186.pdf https://github.com/huawei-noah/DAFL https://www.zhihu.com/question/446299297
HourNAS: Pencarian Arsitektur Neural yang Sangat Cepat Melalui Lensa Jam Pasir https://arxiv.org/pdf/2005.14446.pdf
Penyematan Probabilistik untuk Pengambilan Lintas Modal https://arxiv.org/abs/2101.05068
PLOP: Belajar Tanpa Melupakan untuk Segmentasi Semantik Berkelanjutan https://arxiv.org/abs/2011.11390
Memori Pelangi: Pembelajaran Berkelanjutan dengan Memori Sampel yang Beragam
Memanfaatkan Dimensi Spasial Laten di GAN untuk Pengeditan Gambar Real-time
1.GhostNet: Lebih Banyak Fitur dari Operasi Murah (arsitektur di luar Mobilenet v3) Tautan makalah: https://arxiv.org/pdf/1911.11907arxiv.org Model (kinerja luar biasa pada CPU ARM): https://githubcom/iamhankai /ghostnetgithub.com
Kami mengalahkan CNN ringan SOTA lainnya seperti MobileNetV3 dan FBNet.
Addernet: Apakah kita benar-benar membutuhkan multiplikasi dalam pembelajaran yang mendalam?
Domain Frekuensi Compact 3D Convolutional Neural Networks (3DCNN Compression) Tautan kertas: https://arxiv.org/pdf/1909.04977arxiv.org Kode sumber terbuka: https://github.com/huawei-noah/carsgith.com
Penilai semi-diawasi dari arsitektur saraf (prediktor akurasi jaringan saraf NAS)
Hit-Detector: Hierarkis Trinity Architecture Search for Object Detection (NAS Detection) Backbone-Neck-Head Search Together, Trinity
Mobil: Evolusi Berkelanjutan untuk Pencarian Arsitektur Saraf Efisien (NAS) efisien, memiliki banyak keunggulan dari perbedaan dan evolusi, dan dapat mengeluarkan penelitian di depan Pareto
Pada klasifikasi positif-tidak berlabel dalam GAN (PU+GAN)
Belajar Multiview 3D Point Cloud Registration (3D Point Cloud) Tautan Kertas: arxiv.org/abs/2001.05119
Adaptasi domain multi-modal untuk tautan kertas pengenalan tindakan berbutir halus: arxiv.org/abs/2001.09691
Pengubah Tindakan: Belajar dari kata keterangan dalam tautan kertas video instruksional: arxiv.org/abs/1912.06617
Polarmask: Segmentasi instance tembakan tunggal dengan representasi kutub (pemodelan segmentasi instan) Tautan kertas: arxiv.org/abs/1909.13226 Interpretasi kertas: https://zhuanlan.zhihu.com/p/84890413 Kode sumber terbuka: https: // github. com/xieenze/polarmask
Memikirkan kembali estimasi kinerja dalam pencarian arsitektur saraf (NAS) karena bagian yang memakan waktu dari pencarian arsitektur saraf yang bijaksana adalah bagian estimasi kinerja, artikel ini menemukan parameter optimal untuk blok bijak NAS, yang lebih cepat dan lebih relevan.
Distribusi sadar representasi koordinat untuk tautan kertas estimasi pose manusia: arxiv.org/abs/1910.06278 github: https://github.com/ilovepose/darkpose tim penulis homepage: https://ilovepose.github.io/ coco/
https://arxiv.org/abs/2002.12204
https://arxiv.org/abs/2002.11297
https://arxiv.org/abs/2002.12259
https://arxiv.org/abs/2002.12213
https://arxiv.org/abs/2002.12212
6. Hasilkan grafik adegan yang tidak memihak dari pelatihan bias
https://arxiv.org/abs/2002.11949
https://arxiv.org/abs/2002.11930
https://arxiv.org/abs/2002.11927
https://arxiv.org/abs/2002.11841
https://arxiv.org/abs/1912.03330
https://arxiv.org/abs/2002.11812
https://arxiv.org/abs/1911.07450
https://arxiv.org/abs/2002.11616
https://arxiv.org/abs/2002.11566
https://arxiv.org/abs/2002.11359
https://arxiv.org/pdf/2002.10638.pdf
https://arxiv.org/pdf/1911.11907.pdf
https://arxiv.org/pdf/1912.13200.pdf
https://arxiv.org/abs/1909.04977
https://arxiv.org/abs/1911.06634
https://arxiv.org/pdf/2001.05868.pdf
https://arxiv.org/pdf/1909.13226.pdf
https://arxiv.org/pdf/1811.07073.pdf
https://arxiv.org/pdf/1906.03444.pdf
https://arxiv.org/abs/2002.10310
https://arxiv.org/abs/1906.03444
https://geometry.cs.ucl.ac.uk/projects/2020/neuraltexture/
https://arxiv.org/abs/2002.11576
https://arxiv.org/pdf/1912.06445.pdf
https://arxiv.org/pdf/1912.02184