Link: https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA Extraktionscode: vwkx
Update: 02.03.2022 Einige Artikelinterpretationen aktualisieren
MHFormer: Multi-Hypothese-Transformator für die 3D-Schätzung der menschlichen Pose
Papier: https://arxiv.org/pdf/2111.12707.pdf
Code: https://github.com/Vegetebird/MHFormer
Dieses Papier zielt darauf ab, eine vollständig Faltungsform zu verwenden, um Objekte und Umgebungen einheitlich auszudrücken und vorherzusagen und so eine genaue und effiziente Panoramasegmentierung zu erreichen. In diesem Artikel wird insbesondere ein Faltungskerngenerator vorgeschlagen, der die semantischen Informationen jedes Objekts und jeder Art von Umgebung in verschiedene Faltungskerne codiert und diese mit hochauflösenden Feature-Maps faltet, um die Segmentierungsergebnisse jedes Vordergrunds und Hintergrunds direkt auszugeben. Durch diesen Ansatz können individuelle Unterschiede und semantische Konsistenz von Objekten und Umgebungen gewahrt bleiben. Diese Methode erzielt hochmoderne Ergebnisse in Bezug auf Geschwindigkeit und Genauigkeit bei mehreren Panorama-Segmentierungsdatensätzen. Schlüsselwörter: einheitlicher Ausdruck, dynamische Faltung, panoptische Segmentierung arxiv: https://arxiv.org/abs/2012.00720 github: https://github.com/yanwei-li/PanopticFCN
mündliche Arbeit
FFB6D schlägt ein Netzwerk-Full-Flow-RGBD-Darstellungs-Lernframework mit bidirektionaler Fusion vor und wendet es auf das 6D-Posenschätzungsproblem an. Wir haben festgestellt, dass bestehende Darstellungslernmethoden die beiden komplementären Datenquellen Aussehensinformationen in RGB und geometrische Informationen in Tiefenkarten (Punktwolken) nicht sinnvoll nutzen können.
Zu diesem Zweck entwerfen wir ein bidirektionales dichtes Fusionsmodul und wenden es auf jede Kodierungs- und Dekodierungsschicht von CNN und Punktwolkennetzwerken an. Dieser bidirektionale Full-Flow-Fusionsmechanismus ermöglicht es den beiden Netzwerken, die voneinander extrahierten lokalen und globalen Komplementärinformationen vollständig zu nutzen und so bessere Darstellungen für nachgelagerte Vorhersageaufgaben zu erhalten. Darüber hinaus haben wir im Hinblick auf die Auswahl der Ausgabedarstellung einen SIFT-FPS-Schlüsselpunktauswahlalgorithmus basierend auf der Textur und den geometrischen Informationen des Objekts entwickelt, der die Schwierigkeit des Netzwerklokalisierens von Schlüsselpunkten vereinfacht und die Posengenauigkeit verbessert. Unsere Methode erzielt bei mehreren Benchmarks deutliche Verbesserungen. Und dieses Backbone-Netzwerk zum Lernen der RGBD-Darstellung kann durch Kaskadierung verschiedener Vorhersagenetzwerke auf mehr visuelle Aufgaben mit RGBD als Eingabe angewendet werden. Schlüsselwörter: RGBD-Darstellungslernen, 3D-Vision, 6D-Posenschätzung PDF: https://arxiv.org/abs/2103.02242 Code: https://github.com/ethnhe/FFB6D
Wissenschaft und Technologie entwickeln sich immer weiter nach oben. Wir haben die einkanalige, minimalistische Faltungs-Neuronale Netzwerkarchitektur im VGG-Stil mit einer 3x3-Faltung bis zum Ende „wiederbelebt“. Sie hat das SOTA-Niveau in Geschwindigkeit und Leistung erreicht und weist eine Genauigkeit von über 80 % auf ImageNet.
Um die Schwierigkeit beim Training der VGG-Architektur zu überwinden, verwenden wir eine strukturelle Neuparametrisierung, um während des Trainings die Identitätszuordnung und den 1x1-Faltungszweig im Modell zu erstellen und sie nach dem Training entsprechend in die 3x3-Faltung zusammenzuführen Enthält während der Inferenz nur eine 3x3-Faltung. Diese Architektur weist keine verzweigten Strukturen auf und ist daher hochparallel und sehr schnell. Und da der Hauptteil nur über einen Operator „3x3-ReLU“ verfügt, eignet er sich besonders für kundenspezifische Hardware. Schlüsselwörter: strukturelle Neuparametrisierung, minimalistische Architektur, effizientes Modell https://arxiv.org/abs/2101.03697
In diesem Artikel wird eine neue Faltungsoperation vorgeschlagen – Dynamic Region-Aware Convolution (DRConv: Dynamic Region-Aware Convolution), mit der benutzerdefinierte Faltungskerne basierend auf der Merkmalsähnlichkeit verschiedenen Ebenenbereichen zugewiesen werden können. Im Vergleich zu herkömmlichen Faltungen verbessert diese Faltungsmethode die Modellierungsfähigkeit der Vielfalt semantischer Bildinformationen erheblich. Standard-Faltungsschichten können die Anzahl der Faltungskerne erhöhen, um mehr visuelle Elemente zu extrahieren, führen jedoch zu höheren Rechenkosten. DRConv verwendet einen lernbaren Allokator, um schrittweise zunehmende Faltungskerne in planare Dimensionen zu übertragen, was nicht nur die Darstellungsfähigkeit der Faltung verbessert, sondern auch die Rechenkosten und die Übersetzungsinvarianz beibehält.
DRConv ist eine effektive und elegante Methode zur Handhabung der komplexen und vielfältigen Verteilung semantischer Informationen. Es kann mit seinen Plug-and-Play-Eigenschaften Standardfaltungen in jedem vorhandenen Netzwerk ersetzen und trägt zu erheblichen Leistungsverbesserungen bei. In diesem Artikel wird DRConv anhand verschiedener Modelle (MobileNet-Serie, ShuffleNetV2 usw.) und Aufgaben (Klassifizierung, Gesichtserkennung, Erkennung und Segmentierung) bewertet. Bei der DRConv-basierten ShuffleNetV2-0,5×-Berechnung wird eine Leistung von 67,1 % erzielt , eine Verbesserung um 6,3 % gegenüber dem Ausgangswert. https://arxiv.org/abs/2003.12243
Wir schlagen ein Faltungsnetzwerk-Basismodul (DBB) vor, um die Mikrostruktur des Modells während des Trainings anzureichern, ohne seine Makrostruktur zu ändern, und dadurch seine Leistung zu verbessern. Dieses Modul kann durch strukturelle Neuparametrisierung nach dem Training äquivalent in eine Faltung umgewandelt werden, sodass kein zusätzlicher Inferenzaufwand entsteht. Bild
Wir haben sechs Strukturen zusammengefasst, die äquivalent transformiert werden können, einschließlich kontinuierlicher 1x1-KxK-Faltung, durchschnittliches Pooling usw., und diese sechs Transformationen verwendet, um eine repräsentative DBB-Instanz ähnlich wie Inception zu erhalten, die auf verschiedenen Architekturen verwendet werden kann. Beide haben erhebliche Ergebnisse erzielt Leistungsverbesserungen. Wir haben durch Experimente bestätigt, dass „Nichtlinearität während des Trainings“ (aber linear während der Inferenz, wie z. B. BN) und „diverse Links“ (z. B. 1x1+3x3 ist besser als 3x3+3x3) der Schlüssel zur Wirksamkeit von DBB sind . Schlüsselwörter: Neuparametrisierung der Struktur, kein Denkaufwand, schmerzlose Verbesserung
Die meisten früheren Arbeiten konzentrierten sich auf die Leistung von Stichproben kleiner Klassen auf Kosten der Leistung von Stichproben großer Klassen. In diesem Artikel wird ein Probenzieldetektor für kleine Klassen ohne Vergessenseffekt vorgeschlagen, mit dem eine bessere Leistung von Probenkategorien für kleine Klassen erzielt werden kann, ohne die Leistung von Probenkategorien für große Klassen zu verlieren. In diesem Artikel stellen wir fest, dass vorab trainierte Detektoren selten falsch positive Vorhersagen für unsichtbare Klassen liefern, und wir stellen auch fest, dass RPN keine ideale klassenunabhängige Komponente ist. Basierend auf diesen beiden Erkenntnissen haben wir zwei einfache und effektive Strukturen entworfen, Re-Detector und Bias-Balanced RPN, die durch Hinzufügen einer kleinen Anzahl von Parametern und Inferenzzeit eine Zielerkennung für kleine Stichproben ohne Vergessenseffekt erreichen können. Schlüsselwörter: Lernen kleiner Stichproben, Zielerkennung
In diesem Artikel wird ein einheitliches Framework für die Bearbeitung visueller Erkennungsaufgaben vorgeschlagen, die Long-Tail-Datenverteilungen enthalten. Wir haben zunächst eine experimentelle Analyse bestehender zweistufiger Methoden zur Behandlung von Long-Tail-Problemen durchgeführt und die wichtigsten Leistungsengpässe bestehender Methoden ermittelt. Basierend auf experimenteller Analyse schlagen wir eine Verteilungsausrichtungsstrategie vor, um Long-Tail-Vision-Aufgaben systematisch zu lösen.
Das Framework basiert auf einer zweistufigen Methode. In der ersten Stufe wird eine instanzbalancierte Sampling-Strategie für das Lernen von Merkmalsdarstellungen (Repräsentationslernen) verwendet. Im zweiten Schritt haben wir zunächst eine eingabebewusste Ausrichtungsfunktion entworfen, um die Bewertung der Eingabedaten zu korrigieren. Um die Datensatzverteilung a priori einzuführen, haben wir gleichzeitig ein verallgemeinertes Neugewichtungsschema entworfen, um verschiedene visuelle Aufgabenszenarien wie Bildklassifizierung, semantische Segmentierung, Objekterkennung und Instanzsegmentierung zu bewältigen. Wir haben unsere Methode an vier Aufgaben verifiziert und bei jeder Aufgabe erhebliche Leistungsverbesserungen erzielt. Schlüsselwörter: Bildklassifizierung, semantische Segmentierung, Objekterkennung, Instanzsegmentierung
In diesem Artikel wird zum ersten Mal die NMS-Nachbearbeitung (nicht maximale Unterdrückung) auf dem vollständig gefalteten Zieldetektor entfernt und ein End-to-End-Training erreicht. Wir haben gängige einstufige Objekterkennungsmethoden analysiert und festgestellt, dass die traditionelle Eins-zu-Viele-Etikettenzuweisungsstrategie der Schlüssel zu diesen Methoden ist, die auf NMS basieren, und haben daher eine vorhersagebewusste Eins-zu-Eins-Etikettenzuweisungsstrategie vorgeschlagen. Um die Leistung der Eins-zu-Eins-Beschriftungszuweisung zu verbessern, schlagen wir außerdem Module vor, die die Darstellungsfähigkeiten von Merkmalen verbessern, sowie Hilfsverlustfunktionen, die die Modellkonvergenz beschleunigen. Unsere Methode erreicht eine vergleichbare Leistung wie gängige einstufige Objekterkennungsmethoden ohne NMS. Bei dichten Szenen überschreitet der Rückruf unserer Methode die theoretische Obergrenze von Objekterkennungsmethoden, die auf NMS basieren. Schlüsselwörter: End-to-End-Erkennung, Etikettenzuweisung, vollständig Faltungsnetzwerk https://arxiv.org/abs/2012.03544
Wir schlagen eine auf der Theorie der optimalen Übertragung basierende Zielerkennungs-Probenabgleichsstrategie vor, die globale Informationen verwendet, um optimale Probenabgleichsergebnisse zu finden. Im Vergleich zur vorhandenen Probenabgleichstechnologie bietet sie die folgenden Vorteile: 1). Die global optimalen Matching-Ergebnisse können dabei helfen, den Detektor stabil und effizient zu trainieren und letztendlich eine optimale Erkennungsleistung für den COCO-Datensatz zu erzielen. 2). Große Auswahl an anwendbaren Szenarien. Bestehende Zielerkennungsalgorithmen müssen Strategien neu entwerfen oder Parameter anpassen, wenn sie auf komplexe Szenen wie dichte Ziele oder starke Verdeckungen stoßen. Das optimale Übertragungsmodell umfasst den Prozess der Suche nach der optimalen Lösung im globalen Modellierungsprozess, ohne dass zusätzliche Anpassungen erforderlich sind - Höchste Leistung in verschiedenen Szenen mit dichten Zielobjekten und starker Verdeckung, mit großem Anwendungspotenzial. Schlüsselwörter: Zielerkennung, optimale Übertragung, Probenanpassungsstrategie
Da die Etikettenzuweisung des einstufigen Detektors statisch ist und die globalen Informationen des Objektrahmens nicht berücksichtigt, schlagen wir einen Objektdetektor vor, der auf der Abtastung der Objektmassenverteilung basiert. In diesem Artikel schlagen wir das Qualitätsverteilungs-Kodierungsmodul QDE und das Qualitätsverteilungs-Abtastmodul QDS vor. Durch Extrahieren der regionalen Merkmale des Zielrahmens und Modellieren der Qualitätsverteilung des Vorhersagerahmens basierend auf dem Gaußschen Mischungsmodell können wir diese dynamisch auswählen positiver Wert des Erkennungsrahmens. Diese Methode umfasst nur die Etikettenzuweisung in der Trainingsphase und kann die derzeit besten Ergebnisse für mehrere Datensätze wie COCO erzielen. Schlüsselwörter: Etikettenzuweisung
Die in dem Artikel vorgeschlagene FSCE-Methode zielt darauf ab, das Problem der Erkennung kleiner Stichprobenobjekte aus der Perspektive der Optimierung der Merkmalsdarstellung zu lösen. Bei Objekterkennungsaufgaben mit kleinen Stichproben ist die Anzahl der Zielproben begrenzt, und die korrekte Klassifizierung der Zielproben hat oft einen großen Einfluss auf die endgültige Leistung. FSCE nutzt die Idee des kontrastiven Lernens, um relevante Kandidatenrahmen zu kodieren und ihre Merkmalsdarstellung zu optimieren, wodurch die klasseninterne Kompaktheit und die Abstoßung von Merkmalen zwischen den Klassen gestärkt werden. Die endgültige Methode wurde an den gemeinsamen COCO- und Pascal-VOC-Datensätzen effektiv verbessert . Schlüsselwörter: Zielerkennung in kleinen Stichproben, Link zum vergleichenden Lernpapier: https://arxiv.org/abs/2103.05950
Der bestehende Mainstream-NAS-Algorithmus führt die Modellsuche anhand der Vorhersageleistung des Subnetzwerks im Verifizierungssatz durch. Beim Parameter-Sharing-Mechanismus besteht jedoch ein großer Unterschied zwischen der Vorhersageleistung im Verifizierungssatz und der tatsächlichen Leistung des Modells. Zum ersten Mal haben wir das Paradigma der Modellbewertung basierend auf der Vorhersageleistung durchbrochen, Subnetze aus der Perspektive der Modellkonvergenzgeschwindigkeit bewertet und die Hypothese aufgestellt, dass die entsprechende Vorhersageleistung umso höher ist, je schneller das Modell konvergiert.
Basierend auf dem Modellkonvergenz-Framework haben wir festgestellt, dass die Modellkonvergenz nichts mit den tatsächlichen Etiketten der Bilder zu tun hat, und haben außerdem ein neues NAS-Paradigma vorgeschlagen – RLNAS, das zufällige Etiketten für das Supernetzwerktraining verwendet. RLNAS wurde in mehreren Datensätzen (NAS-Bench-201, ImageNet) und mehreren Suchräumen (DARTS, MobileNet-ähnlich) verifiziert. Die experimentellen Ergebnisse zeigen, dass RLNAS die Leistung vorhandener NAS erreichen kann, indem nur Strukturen verwendet werden, die nach zufälligen Bezeichnungen durchsucht werden. SOTA-Ebene. RLNAS scheint zunächst kontraintuitiv zu sein, aber seine unerwartet guten Ergebnisse bieten eine stärkere Basis für die NAS-Community und regen zusätzlich zum Nachdenken über die Natur von NAS an. Schlüsselwörter: Suche nach neuronaler Netzwerkarchitektur, Annahme der Modellkonvergenz, Zufallsbezeichnung https://arxiv.org/abs/2101.11834
Aktuelle Algorithmen zur Schätzung der menschlichen Pose verwenden die Heatmap-Regression, um die endgültigen Gelenkpunkte zu erhalten. Diese Methoden verwenden typischerweise einen 2D-Gaußschen Kernel mit fester Standardabweichung, der alle Skelettschlüsselpunkte abdeckt, um eine echte Wärmekarte zu erstellen, und verwenden die echte Wärmekarte zur Überwachung des Modells. Da die realen Wärmekarten der Verbindungspunkte verschiedener Personen mit demselben Gaußschen Kernel erstellt werden, berücksichtigt diese Methode nicht die Skalenunterschiede verschiedener Personen, was zu Mehrdeutigkeiten bei der Beschriftung führt und den Modelleffekt beeinträchtigt.
In diesem Artikel wird eine maßstabsadaptive Heatmap-Regression vorgeschlagen, die die zum Erstellen von Etiketten basierend auf der Größe des menschlichen Körpers erforderliche Standardabweichung adaptiv generieren kann, wodurch das Modell für menschliche Körper unterschiedlicher Maßstäbe robuster wird und eine gewichtsadaptive Regression vorgeschlagen wird Balancieren Sie positive und negative Proben und untersuchen Sie den skalenadaptiven Heatmap-Regressionseffekt weiter. In diesem Artikel wird schließlich die fortschrittlichste Leistung bei der Bottom-Up-Schätzung der menschlichen Pose erreicht. Schlüsselwörter: Schätzung der menschlichen Pose, Bottom-up, adaptive Heatmap-Regression https://arxiv.org/abs/2012.15175 https://github.com/greatlog/SWAHR-HumanPose
GID schlägt eine neuartige Destillationsmethode vor, die auf Detektionsaufgaben basiert. Durch das Extrahieren allgemeiner Instanzen (GI) aus Lehrern bzw. Schülern wird vorgeschlagen, dass das GISM-Modul Instanzen mit großen Unterschieden adaptiv für die merkmalsbasierte, beziehungsbasierte und antwortbasierte Destillation auswählt. Diese Methode wendet zum ersten Mal die relationale Wissensdestillation auf das Erkennungsgerüst an und vereinheitlicht das Destillationsziel von der unabhängigen Berücksichtigung der positiven und negativen Probendestillation zu einer wesentlicheren GI-Destillation. Der Prozess ist nicht auf GT angewiesen und erreicht SOTA. Schlüsselwörter: Zielerkennung, Wissensdestillation https://arxiv.org/abs/2103.02340
Wir schlagen eine neue Aktivierungsfunktion ACON (aktivieren oder nicht) vor, die adaptiv lernen kann, zu aktivieren oder nicht. ACON stellte die Verbindung zwischen ReLU und Swish her: Wir fanden heraus, dass Swish eine glatte Form von ReLU ist, obwohl die beiden Formen sehr unterschiedlich sind. Basierend auf dieser Entdeckung haben wir weitere Varianten vorgeschlagen, wie z. B. Meta-Acon, das im Vergleich zu SENet die doppelte kostenlose Steigerung erzielte. Wir überprüfen die Generalisierungsleistung dieser prägnanten und effektiven Aktivierungsfunktion für mehrere Aufgaben. Schlüsselwörter: Aktivierungsfunktion, neuronales Netzwerk https://arxiv.org/abs/2009.04759
In diesem Artikel haben wir zunächst die Rolle von FPN im einstufigen Detektor RetinaNet analysiert. Durch Experimente haben wir herausgefunden, dass die Teile-und-Herrsche-Idee, Objekte unterschiedlichen Maßstabs unterschiedlichen Erkennungsebenen zuzuordnen, eine große Wirkung hat Auswirkungen auf die Erkennungsergebnisse haben. Aus Sicht der Optimierung zerlegt diese Idee das Optimierungsproblem bei der Erkennung, wodurch das Optimierungslernen einfacher wird und die Erkennungsgenauigkeit verbessert wird. Das auf mehrstufigen Merkmalen basierende FPN-Design verkompliziert jedoch die Netzwerkstruktur der Erkennungsmethode, führt zu zusätzlichen Berechnungen und verlangsamt die Erkennungsgeschwindigkeit. Um die oben genannten Probleme zu vermeiden, wird in diesem Artikel vorgeschlagen, Objekte aller Maßstäbe auf einer einzigen Ebene zu erkennen. Gleichzeitig wird zur Lösung des Problems der schwierigen Optimierung bei der Erkennung von Einzelebenenmerkmalen eine Lösung mit Loch-Encoder und ausgewogenem Matching vorgeschlagen vorgeschlagen.
Die Erkennungsgenauigkeit des in diesem Artikel vorgeschlagenen einstufigen merkmalsbasierten Detektors YOLOF ist mit der des FPN-basierten RetinaNet vergleichbar, wenn nur C5-Merkmale verwendet werden, und die Erkennungsgeschwindigkeit beträgt das 2,5-fache der von RetinaNet. Darüber hinaus kann YOLOF im Vergleich zu DETR, das ebenfalls nur C5-Funktionen verwendet, eine vergleichbare Leistung mit schnellerer Konvergenz (7x) erzielen. Schlüsselwörter: einstufige Zielerkennung, einstufige Funktionen, Gleichgewicht zwischen Erkennungsgeschwindigkeit und Genauigkeit https://arxiv.org/abs/2103.09460 https://github.com/megvii-model/YOLOF
Ziel dieser Studie ist es, die Leistung des Detektors zu verbessern, ohne die Etikettierungskosten zu erhöhen. In diesem Artikel werden eine kleine Anzahl von Begrenzungsrahmen und eine große Anzahl von Punktanmerkungen ausgewählt, um den Detektor zu trainieren. Die Punktanmerkung wird gewählt, weil sie reich an Informationen ist: Sie enthält die Standort- und Kategorieinformationen der Instanz und die Annotationskosten sind gering. In diesem Artikel wird Point DETR durch Erweiterung des Punkt-Encoders auf DETR vorgeschlagen. Das Gesamtgerüst besteht darin, Punkt-DETR durch Bounding-Box-Daten zu kodieren und Pseudo-Box-Modelle durch Bounding-Box-Daten zu trainieren. Im COCO-Datensatz erreicht unser Detektor unter Verwendung von nur 20 % vollständig annotierter Daten 33,3 AP und übertrifft damit die Basislinie um 2,0 AP. Schlüsselwörter: Zielerkennung, halbüberwacht, schwache Überwachung
Weitwinkelobjektive sind wegen ihres weiten Sichtfelds beliebt, leiden jedoch unter Linsenverzerrungen und perspektivischen Verzerrungen, die sich in gekrümmten Hintergrundlinien, Dehnung, Quetschung und Neigung von Gesichtern usw. äußern. Zu diesem Zweck wird in diesem Artikel ein Kaskaden-Entzerrungsnetzwerk aufgebaut, das aus einem Linienkorrekturnetzwerk, einem Gesichtskorrekturnetzwerk und einem Übergangsmodul besteht, sodass der Hintergrund eine perspektivische Projektion und der Gesichtsbereich eine stereoskopische Projektion darstellt und reibungslose Übergänge zwischen beiden erfolgen Bereiche, so dass in Eliminieren Sie verschiedene Verzerrungen bei gleichzeitiger Beibehaltung des Sichtfelds. Diese Methode erfordert keine Kameraparameter, kann eine Echtzeitleistung erzielen und übertrifft bestehende Methoden sowohl bei qualitativen als auch quantitativen Auswertungen. Schlüsselwörter: Weitwinkel-Porträtverzerrungskorrektur, tiefes Kaskadennetzwerk
Wir schlagen eine neue unbeaufsichtigte Lernmethode für den optischen Fluss UPFlow vor. Wir haben festgestellt, dass die derzeitige Methode des unbeaufsichtigten optischen Flusses zwei Probleme bei der mehrskaligen Pyramidenverarbeitung aufweist: das Problem der Interpolationsmehrdeutigkeit im Fluss-Upsampling-Prozess und das Problem der mangelnden Überwachung des mehrskaligen Flusses. In diesem Zusammenhang schlagen wir ein selbstgesteuertes Upsampling-Modul vor, das einen Interpolationsfluss und eine Interpolationskarte verwendet, um den Upsampling-Interpolationsmechanismus zu ändern und so ein verfeinertes Upsampling zu erreichen. Darüber hinaus schlagen wir vor, die endgültige Ausgabe des Netzwerks als Pseudoetiketten zu verwenden, um das Lernen von mehrskaligen Flüssen zu überwachen. Basierend auf diesen Verbesserungen ist unsere Methode in der Lage, klarere und schärfere optische Flussergebnisse zu erzielen. Wir führen Experimente mit mehreren Benchmark-Datensätzen für den optischen Fluss durch, darunter Sintel, KITTI 2012 und KITTI 2015. Die Leistung von UPFlow übertrifft den derzeit besten unbeaufsichtigten optischen Flussalgorithmus um etwa 20 %. Schlüsselwörter: Schätzung des optischen Flusses, unüberwachtes Lernen https://arxiv.org/abs/2012.00212
NBNet ist ein Framework, das das Problem der Bildrauschreduzierung löst. Wir nähern uns diesem Problem mit einer neuartigen Perspektive: der bildadaptiven Projektion. Insbesondere lernen wir eine Reihe von Unterräumen im Merkmalsraum, und die Bildentrauschung kann erreicht werden, indem ein geeigneter Signalunterraum ausgewählt und auf diesen Unterraum projiziert wird. Im Vergleich zur vorherigen einvolumigen Netzwerkstruktur kann NBNet durch Projektion Strukturinformationen in Bildern, insbesondere schwache Texturbereiche, auf natürliche und effizientere Weise extrahieren und nutzen, um uns bei der Wiederherstellung von Bildern zu helfen. Durch eine solch einfache Methode erreichte NBNet SOTA bei den beiden Benchmarks DND und SIDD mit weniger Berechnung. Schlüsselwörter: Bildrauschen, Unterraum https://arxiv.org/abs/2012.15028
Diese Arbeit führt den „Dynamikbereich“, ein wichtiges Attribut in Metriken, in das tiefe metrische Lernen ein, was zu einer neuen Aufgabe namens „dynamisches metrisches Lernen“ führt. Wir fanden heraus, dass frühere Tiefenmessungen tatsächlich nur eine Skala enthielten, z. B. nur die Unterscheidung, ob Gesichter und Fußgänger ähnlich oder unähnlich waren. Unabhängig davon, wie genau solche Messgeräte sind, sind sie unflexibel und haben im tatsächlichen Einsatz nur begrenzte Einsatzmöglichkeiten. Tatsächlich verfügen unsere täglichen Messwerkzeuge normalerweise über einen dynamischen Bereich. Beispielsweise verfügt ein Lineal immer über mehrere Skalen (z. B. 1 mm, 1 cm oder sogar 10 cm), um Objekte mit unterschiedlichen Maßstäben zu messen. Wir glauben, dass es an der Zeit ist, im Bereich des Deep-Metric-Learnings einen dynamischen Bereich einzuführen. Denn visuelle Konzepte selbst haben unterschiedliche Größen. „Tiere“ und „Pflanzen“ entsprechen alle großen Maßstäben, während „Elch“ relativ kleinen Maßstäben entspricht. Im Kleinen mögen zwei Elche sehr unterschiedlich aussehen, aber im Großen sollten dieselben beiden Elche als sehr ähnlich betrachtet werden.
Zu diesem Zweck schlagen wir diese dynamische metrische Lernaufgabe vor, die das Erlernen eines einzelnen metrischen Raums erfordert, der gleichzeitig Ähnlichkeitsmaße für visuelle Konzepte unterschiedlicher semantischer Größe bereitstellen kann. Darüber hinaus erstellen wir drei mehrskalige Datensätze und schlagen eine einfache Basismethode vor. Wir glauben, dass der dynamische Bereich zu einer unverzichtbaren Eigenschaft des Deep-Metric-Learnings wird und neue Perspektiven und neue Anwendungsszenarien für den gesamten Bereich des Deep-Metric-Learnings bringt.
3D-Graph-Anatomie-Geometrie-integriertes Netzwerk für Pankreasmassensegmentierung, Diagnose und quantitatives Patientenmanagement
Deep Lesion Tracker: Überwachung von Läsionen in 4D-Längsschnittstudien https://arxiv.org/abs/2012.04872
Automatische Wirbellokalisierung und -identifizierung in der CT durch Wirbelsäulenkorrektur und anatomisch eingeschränkte Optimierung https://arxiv.org/abs/2012.07947
3D-CNNs mit adaptiven zeitlichen Merkmalsauflösungen https://arxiv.org/abs/2011.08652
KeepAugment: Eine einfache informationserhaltende Datenerweiterung https://arxiv.org/pdf/2011.11778.pdf
Hijack-GAN: Unbeabsichtigte Verwendung vorab trainierter Black-Box-GANs https://arxiv.org/pdf/2011.14107.pdf
D-NeRF: Neuronale Strahlungsfelder für dynamische Szenen https://arxiv.org/abs/2011.13961
Grob-feine Netzwerke zur zeitlichen Aktivitätserkennung in Videos
Instanzlokalisierung für selbstüberwachtes Erkennungs-Pretraining https://arxiv.org/pdf/2102.08318.pdf https://github.com/limbo0000/InstanceLoc
Schwach überwachte geerdete visuelle Beantwortung von Fragen mithilfe von Kapseln
4D Panoptische LiDAR-Segmentierung https://arxiv.org/abs/2102.12472
Luftkampf: Drohnen anhand von Drohnenvideos erkennen
Aktives Lernen mehrerer Instanzen zur Objekterkennung https://github.com/yuantn/MIAL/raw/master/paper.pdf https://github.com/yuantn/MIAL
Überdenken der Darstellungsausrichtung für Multi-View-Clustering
Selbstüberwachte simultane mehrstufige Vorhersage der Straßendynamik und der Kostenkarte
Bild-zu-Bild-Übersetzung mittels Hierarchical Style Disentanglement Xinyang Li, Shengchuan Zhang, Jie Hu, Liujuan Cao, Xiaopeng Hong, /github.com/imlixinyang/HiSD
FLAVR: Flussunabhängige Videodarstellungen für schnelle Frame-Interpolation https://arxiv.org/pdf/2012.08512.pdf https://tarun005.github.io/FLAVR/Code https://tarun005.github.io/FLAVR/
Patch-NetVLAD: Multiskalige Fusion lokal-globaler Deskriptoren zur Ortserkennung Stephen Hausler, Sourav Garg, Ming Xu, Michael Milford, Tobias Fischer https://arxiv.org/abs/2103.01486
Tiefe durch Kamerabewegung und Objekterkennung Brent A. Griffin, Jason J. Corso https://arxiv.org/abs/2103.01468
UP-DETR: Unbeaufsichtigtes Vortraining zur Objekterkennung mit Transformatoren https://arxiv.org/pdf/2011.09094.pdf
Mehrstufige progressive Bildwiederherstellung https://arxiv.org/abs/2102.02808 https://github.com/swz30/MPRNet
Schwach überwachtes Lernen des starren 3D-Szenenflusses https://arxiv.org/pdf/2102.08945.pdf https://arxiv.org/pdf/2102.08945.pdf https://3dsceneflow.github.io/
Erforschung komplementärer Stärken invarianter und äquivarianter Darstellungen für Few-Shot-Lernen Mamshad Nayeem Rizve, Salman Khan, Fahad Shahbaz Khan, Mubarak Shah https://arxiv.org/abs/2103.01315
ImageNet neu kennzeichnen: von einzelnen zu mehreren Etiketten, von globalen zu lokalisierten Etiketten https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet
Überdenken von Kanaldimensionen für effizientes Modelldesign https://arxiv.org/abs/2007.00992 https://github.com/clovaai/rexnet
Grob-feine Netzwerke zur zeitlichen Aktivitätserkennung in Videos Kumara Kahatapitiya, Michael S. Ryoo https://arxiv.org/abs/2103.01302
Ein tiefer Emulator für die Sekundärbewegung von 3D-Charakteren Mianlun Zheng, Yi Zhou, Duygu Ceylan, Jernej Barbic https://arxiv.org/abs/2103.01261
Faire Attributklassifizierung durch Latent Space De-Biasing https://arxiv.org/abs/2012.01469 https://github.com/princetonvisualai/gan-debiasing https://princetonvisualai.github.io/gan-debiasing/
Auto-Exposure-Fusion zur Einzelbild-Schattenentfernung Lan Fu, Changqing Zhou, Qing Guo, Felix Juefei-Xu, Hongkai Yu, Wei Feng, Yang Liu, Song Wang https://arxiv.org/abs/2103.01255
Weniger ist mehr: CLIPBERT für Video- und Sprachlernen mittels Sparse Sampling https://arxiv.org/pdf/2102.06183.pdf https://github.com/jayleicn/ClipBERT
MetaSCI: Skalierbare und adaptive Rekonstruktion für die Video-Kompressionserkennung Zhengjue Wang, Hao Zhang, Ziheng Cheng, Bo Chen, Xin Yuan https://arxiv.org/abs/2103.01786
AttentiveNAS: Verbesserung der neuronalen Architektursuche über Attentive https://arxiv.org/pdf/2011.09011.pdf
Diffusionswahrscheinlichkeitsmodelle für die Erzeugung von 3D-Punktwolken Shitong Luo, Wei Hu https://arxiv.org/abs/2103.01458
Es gibt mehr, als man auf den ersten Blick sieht: Selbstüberwachte Erkennung und Verfolgung mehrerer Objekte mit Ton durch Destillation multimodalen Wissens Francisco Rivera Valverde, Juana Valeria Hurtado, Abhinav Valada https://arxiv.org/abs/2103.01353 http://rl. uni-freiburg.de/research/multimodal-destillation
Codierung mit Stil: ein StyleGAN-Encoder für die Bild-zu-Bild-Übersetzung https://arxiv.org/abs/2008.00951 https://github.com/eladrich/pixel2style2pixel https://eladrich.github.io/pixel2style2pixel/
Hierarchisches und teilweise beobachtbares zielorientiertes politisches Lernen mit zielgerichtetem relationalen Diagramm Xin Ye, Yezhou Yang https://arxiv.org/abs/2103.01350
RepVGG: ConvNets im VGG-Stil wieder großartig machen https://arxiv.org/abs/2101.03697 https://github.com/megvii-model/RepVGG
Transformer-Interpretierbarkeit über Aufmerksamkeitsvisualisierung hinaus https://arxiv.org/pdf/2012.09838.pdf https://github.com/hila-chefer/Transformer-Explainability
PREDATOR: Registrierung von 3D-Punktwolken mit geringer Überlappung https://arxiv.org/pdf/2011.13005.pdf https://github.com/ShengyuH/OverlapPredator https://overlappredator.github.io/
Multiauflösungs-Wissensdestillation zur Anomalieerkennung https://arxiv.org/abs/2011.11108
Positiv-unbeschriftete Datenreinigung in freier Wildbahn zur Objekterkennung
Datenfreie Wissensdestillation für Bild-Superauflösung
Manipulierte regulierte dynamische Netzwerkbereinigung
Vortrainierter Bildverarbeitungstransformator https://arxiv.org/pdf/2012.00364.pdf
ReNAS: Relativistische Bewertung der Suche nach neuronaler Architektur https://arxiv.org/pdf/1910.01523.pdf
AdderSR: Auf dem Weg zu einer energieeffizienten Bild-Superauflösung https://arxiv.org/pdf/2009.08891.pdf https://github.com/huawei-noah/AdderNet
Lernen von Studentennetzwerken in freier Wildbahn https://arxiv.org/pdf/1904.01186.pdf https://github.com/huawei-noah/DAFL https://www.zhihu.com/question/446299297
HourNAS: Extrem schnelle neuronale Architektursuche durch eine Sanduhrlinse https://arxiv.org/pdf/2005.14446.pdf
Probabilistische Einbettungen für den modalübergreifenden Abruf https://arxiv.org/abs/2101.05068
PLOP: Lernen ohne Vergessen für kontinuierliche semantische Segmentierung https://arxiv.org/abs/2011.11390
Regenbogengedächtnis: Kontinuierliches Lernen mit einer Erinnerung an verschiedene Beispiele
Nutzung der räumlichen Dimensionen von Latent in GAN für die Bildbearbeitung in Echtzeit
1.GhostNet: Mehr Funktionen von Cheap Operations (Architektur über Mobilenet v3 hinaus) Papierlink: https://arxiv.org/pdf/1911.11907arxiv.org Modell (erstaunliche Leistung auf ARM-CPU): https://github.com/iamhankai /ghostnetgithub.com
Wir schlagen andere leichte SOTA-CNNs wie MobileNetV3 und FBNet.
Addernet: Benötigen wir wirklich Multiplikationen in Deep Learning?
Frequenzdomäne Compact 3D Faltungsverkehrsnetzwerke (3DCNN-Komprimierung) Papier Link: https://arxiv.org/pdf/190.
Ein semi-vortrimierter Assessor neuronaler Architekturen (Genauigkeitsgenauigkeitsprädiktor NAS)
Hit-Detector: Hierarchische Dreifaltigkeitsarchitektur-Suche nach Objekterkennung (NAS-Erkennung) Backbone-Neck-Head-Such zusammen, Trinity
Autos: Die kontinuierliche Entwicklung für die effiziente Suche nach neuronaler Architektur (NAS) ist effizient, hat mehrere Vorteile von Differenzierbarkeit und Evolution und kann eine Pareto -Frontforschung ausgeben
Auf positiv-nicht-klassifizierter Klassifizierung in GaN (Pu+Gan)
Lernen von Multiview 3D Point Cloud Registrierung (3D Point Cloud) Papier Link: arxiv.org/abs/2001.05119
Multimodal-Domänenanpassung für feinkörnige Aktionserkennungspapier Link: arxiv.org/abs/2001.09691
Aktionsmodifikatoren: Lernen aus Adverbien im Anweisungsvideopapier Link: arxiv.org/abs/1912.06617
Polarmask: Single -Shot -Instanzsegmentierung mit Polardarstellung (Instanzsegmentierung Modellierung) Papier Link: arxiv.org/abs/1909.13226 Papierinterpretation: https://zhuanlan.zhihu.com/p/84890413 Open Source Code: Https: // Github. com/xieenze/polarmask
Überdenken der Leistungsschätzung bei der Suche nach neuronaler Architektur (NAS) Da der effektiv zeitaufwändige Teil der Block-Wise-Architektur-Suche der Leistungsteil ist, findet dieser Artikel die optimalen Parameter für Block Wise NAS, was schneller und relevanter ist.
Verteilungswahrermessen -Koordinate -Darstellung für Human Pose Schätzung Papier Link: arxiv.org/abs/1910.06278 Github: https://github.com/ilovepose/darkple Autor Team Homepage: https://ilovephe.github.io/ Coco/Coco/
https://arxiv.org/abs/2002.12204
https://arxiv.org/abs/2002.11297
https://arxiv.org/abs/2002.12259
https://arxiv.org/abs/2002.12213
https://arxiv.org/abs/2002.12212
6. Erzeugen Sie ein unvoreingenommenes Szenengraphen aus voreingenommenem Training
https://arxiv.org/abs/2002.11949
https://arxiv.org/abs/2002.11930
https://arxiv.org/abs/2002.11927
https://arxiv.org/abs/2002.11841
https://arxiv.org/abs/1912.03330
https://arxiv.org/abs/2002.11812
https://arxiv.org/abs/1911.07450
https://arxiv.org/abs/2002.11616
https://arxiv.org/abs/2002.11566
https://arxiv.org/abs/2002.11359
https://arxiv.org/pdf/2002.10638.pdf
https://arxiv.org/pdf/1911.11907.pdf
https://arxiv.org/pdf/1912.13200.pdf
https://arxiv.org/abs/1909.04977
https://arxiv.org/abs/1911.06634
https://arxiv.org/pdf/2001.05868.pdf
https://arxiv.org/pdf/1909.13226.pdf
https://arxiv.org/pdf/1811.07073.pdf
https://arxiv.org/pdf/1906.03444.pdf
https://arxiv.org/abs/2002.10310
https://arxiv.org/abs/1906.03444
https://geometry.cs.ucl.ac.uk/projects/2020/neuraltexture/
https://arxiv.org/abs/2002.11576
https://arxiv.org/pdf/1912.06445.pdf
https://arxiv.org/pdf/1912.02184