Un método general de búsqueda de campos receptivos para CNN. Si su red tiene Conv con un kernel mayor que 1, RF-Next puede mejorar aún más su modelo. La implementación oficial de:
Documento TPAMI2022: 'RF-Next: Búsqueda eficiente de campos receptivos para redes neuronales convolucionales'
Documento CVPR2021: 'Global2Local: búsqueda de estructura eficiente para la segmentación de acciones de vídeo'
Los campos receptivos temporales/espaciales de los modelos juegan un papel importante en las tareas secuenciales/espaciales. Los campos receptivos grandes facilitan las relaciones a largo plazo, mientras que los campos receptivos pequeños ayudan a capturar los detalles locales. Los métodos existentes construyen modelos con campos receptivos diseñados a mano en capas. ¿Podemos buscar eficazmente combinaciones de campos receptivos para reemplazar patrones diseñados a mano? Para responder a esta pregunta, proponemos encontrar mejores combinaciones de campos receptivos a través de un esquema de búsqueda de global a local. Nuestro esquema de búsqueda explota tanto la búsqueda global para encontrar combinaciones aproximadas como la búsqueda local para obtener más combinaciones refinadas de campos receptivos. La búsqueda global encuentra posibles combinaciones burdas distintas de los patrones diseñados por humanos. Además de la búsqueda global, proponemos un esquema de búsqueda local iterativo guiado por expectativas para refinar las combinaciones de manera efectiva. Nuestros modelos RF-Next, que conectan la búsqueda de campos receptivos a varios modelos, mejoran el rendimiento en muchas tareas, por ejemplo, segmentación de acciones temporales, detección de objetos, segmentación de instancias y síntesis de voz.
RF-Next admite muchas aplicaciones.
Si encuentra que este trabajo o código es útil en su investigación, cite:
@article{gao2022rfnext,
title={RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks},
author={Gao, Shanghua and Li, Zhong-Yu and Han, Qi and Cheng, Ming-Ming and Wang, Liang},
journal=TPAMI,
year={2022} }
@inproceedings{gao2021global2local,
title={Global2Local: Efficient Structure Search for Video Action Segmentation},
author={Gao, Shang-Hua and Han, Qi and Li, Zhong-Yu and Peng, Pai and Wang, Liang and Cheng, Ming-Ming},
booktitle=CVPR,
year={2021}
}
El código fuente es gratuito únicamente para uso educativo y de investigación. Cualquier uso comercial debe obtener primero un permiso formal.
Si tiene alguna pregunta, no dude en enviar un correo electrónico a Shang-Hua Gao ( shgao(at)live.com
).