Eine allgemeine Methode zur Suche nach Empfangsfeldern für CNN. Wenn Ihr Netzwerk über Conv mit einem Kernel größer als 1 verfügt, kann RF-Next Ihr Modell weiter verbessern. Die offizielle Umsetzung von:
TPAMI2022-Papier: „RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks“
CVPR2021-Papier: „Global2Local: Effiziente Struktursuche für die Segmentierung von Videoaktionen“
Zeitlich/räumlich rezeptive Felder von Modellen spielen bei sequentiellen/räumlichen Aufgaben eine wichtige Rolle. Große Empfangsfelder erleichtern langfristige Beziehungen, während kleine Empfangsfelder dabei helfen, lokale Details zu erfassen. Bestehende Methoden konstruieren Modelle mit handgefertigten Empfangsfeldern in Schichten. Können wir effektiv nach rezeptiven Feldkombinationen suchen, um von Hand entworfene Muster zu ersetzen? Um diese Frage zu beantworten, schlagen wir vor, bessere rezeptive Feldkombinationen durch ein globales zu lokales Suchschema zu finden. Unser Suchschema nutzt sowohl die globale Suche, um die groben Kombinationen zu finden, als auch die lokale Suche, um die verfeinerten rezeptiven Feldkombinationen weiter zu ermitteln. Die globale Suche findet mögliche grobe Kombinationen, die nicht von Menschen entworfene Muster sind. Zusätzlich zur globalen Suche schlagen wir ein erwartungsgesteuertes iteratives lokales Suchschema vor, um Kombinationen effektiv zu verfeinern. Unsere RF-Next-Modelle, die die Suche nach rezeptiven Feldern in verschiedene Modelle integrieren, steigern die Leistung bei vielen Aufgaben, z. B. zeitliche Aktionssegmentierung, Objekterkennung, Instanzsegmentierung und Sprachsynthese.
RF-Next unterstützt viele Anwendungen.
Wenn Sie feststellen, dass diese Arbeit oder dieser Code für Ihre Recherche hilfreich ist, geben Sie bitte Folgendes an:
@article{gao2022rfnext,
title={RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks},
author={Gao, Shanghua and Li, Zhong-Yu and Han, Qi and Cheng, Ming-Ming and Wang, Liang},
journal=TPAMI,
year={2022} }
@inproceedings{gao2021global2local,
title={Global2Local: Efficient Structure Search for Video Action Segmentation},
author={Gao, Shang-Hua and Han, Qi and Li, Zhong-Yu and Peng, Pai and Wang, Liang and Cheng, Ming-Ming},
booktitle=CVPR,
year={2021}
}
Der Quellcode ist nur für Forschungs- und Bildungszwecke kostenlos. Für jede kommerzielle Nutzung sollte zunächst eine formelle Genehmigung eingeholt werden.
Wenn Sie Fragen haben, senden Sie bitte eine E-Mail an Shang-Hua Gao ( shgao(at)live.com
).