Une méthode générale de recherche de champ réceptif pour CNN. Si votre réseau dispose de Conv avec un noyau supérieur à 1, RF-Next peut encore améliorer votre modèle. La mise en œuvre officielle de :
Article TPAMI2022 : « RF-Next : Recherche efficace de champs récepteurs pour les réseaux de neurones convolutifs »
Article CVPR2021 : « Global2Local : recherche de structure efficace pour la segmentation des actions vidéo »
Les champs récepteurs temporels/spatiaux des modèles jouent un rôle important dans les tâches séquentielles/spatiales. Les grands champs réceptifs facilitent les relations à long terme, tandis que les petits champs réceptifs aident à capturer les détails locaux. Les méthodes existantes construisent des modèles avec des champs récepteurs conçus à la main en couches. Pouvons-nous rechercher efficacement des combinaisons de champs réceptifs pour remplacer les modèles conçus à la main ? Pour répondre à cette question, nous proposons de trouver de meilleures combinaisons de champs réceptifs grâce à un schéma de recherche global-local. Notre schéma de recherche exploite à la fois la recherche globale pour trouver les combinaisons grossières et la recherche locale pour approfondir les combinaisons de champs réceptifs affinées. La recherche globale trouve des combinaisons grossières possibles autres que les modèles conçus par l'homme. En plus de la recherche globale, nous proposons un schéma de recherche locale itérative guidé par les attentes pour affiner efficacement les combinaisons. Nos modèles RF-Next, connectant la recherche de champ réceptif à divers modèles, améliorent les performances de nombreuses tâches, par exemple la segmentation d'actions temporelles, la détection d'objets, la segmentation d'instances et la synthèse vocale.
RF-Next prend en charge de nombreuses applications.
Si vous trouvez que ce travail ou ce code est utile dans votre recherche, veuillez citer :
@article{gao2022rfnext,
title={RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks},
author={Gao, Shanghua and Li, Zhong-Yu and Han, Qi and Cheng, Ming-Ming and Wang, Liang},
journal=TPAMI,
year={2022} }
@inproceedings{gao2021global2local,
title={Global2Local: Efficient Structure Search for Video Action Segmentation},
author={Gao, Shang-Hua and Han, Qi and Li, Zhong-Yu and Peng, Pai and Wang, Liang and Cheng, Ming-Ming},
booktitle=CVPR,
year={2021}
}
Le code source est gratuit et destiné uniquement à la recherche et à l'enseignement. Toute utilisation commerciale doit d’abord obtenir une autorisation formelle.
Si vous avez des questions, n'hésitez pas à envoyer un e-mail à Shang-Hua Gao ( shgao(at)live.com
)