Um método geral de pesquisa de campo receptivo para CNN. Se sua rede possui Conv com kernel maior que 1, o RF-Next pode melhorar ainda mais seu modelo. A implementação oficial de:
Artigo TPAMI2022: 'RF-Next: Pesquisa de campo receptivo eficiente para redes neurais convolucionais'
Artigo CVPR2021: 'Global2Local: Pesquisa de estrutura eficiente para segmentação de ações de vídeo'
Os campos receptivos temporais/espaciais dos modelos desempenham um papel importante em tarefas sequenciais/espaciais. Grandes campos receptivos facilitam relações de longo prazo, enquanto pequenos campos receptivos ajudam a captar os detalhes locais. Os métodos existentes constroem modelos com campos receptivos projetados manualmente em camadas. Podemos efetivamente procurar combinações de campos receptivos para substituir padrões desenhados à mão? Para responder a esta questão, propomos encontrar melhores combinações de campos receptivos através de um esquema de busca global para local. Nosso esquema de busca explora tanto a busca global para encontrar as combinações grosseiras quanto a busca local para obter ainda mais as combinações refinadas de campos receptivos. A pesquisa global encontra possíveis combinações grosseiras que não sejam padrões projetados por humanos. Além da busca global, propomos um esquema de busca local iterativo guiado por expectativas para refinar combinações de forma eficaz. Nossos modelos RF-Next, conectando pesquisa de campo receptivo a vários modelos, aumentam o desempenho em muitas tarefas, por exemplo, segmentação de ação temporal, detecção de objetos, segmentação de instâncias e síntese de fala.
RF-Next suporta muitas aplicações.
Se você achar que este trabalho ou código é útil em sua pesquisa, cite:
@article{gao2022rfnext,
title={RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks},
author={Gao, Shanghua and Li, Zhong-Yu and Han, Qi and Cheng, Ming-Ming and Wang, Liang},
journal=TPAMI,
year={2022} }
@inproceedings{gao2021global2local,
title={Global2Local: Efficient Structure Search for Video Action Segmentation},
author={Gao, Shang-Hua and Han, Qi and Li, Zhong-Yu and Peng, Pai and Wang, Liang and Cheng, Ming-Ming},
booktitle=CVPR,
year={2021}
}
O código-fonte é gratuito apenas para uso em pesquisa e educação. Qualquer uso comercial deve primeiro obter permissão formal.
Se você tiver alguma dúvida, sinta-se à vontade para enviar um e-mail para Shang-Hua Gao ( shgao(at)live.com
)