CNNの一般的な受容野探索手法。ネットワークに 1 より大きいカーネルを持つ Conv がある場合、RF-Next はモデルをさらに改善できます。公式実装:
TPAMI2022 論文: 「RF-Next: 畳み込みニューラル ネットワークの効率的な受容野探索」
CVPR2021 論文: 「Global2Local: ビデオ アクション セグメンテーションのための効率的な構造検索」
モデルの時間的/空間的受容野は、連続的/空間的タスクにおいて重要な役割を果たします。大きな受容野は長期的な関係を促進し、小さな受容野は地元の詳細を捉えるのに役立ちます。既存の方法では、手動で設計された受容野を層状に持つモデルを構築します。受容野の組み合わせを効果的に探索して、手作業で設計したパターンを置き換えることはできるでしょうか?この質問に答えるために、グローバルからローカルへの検索スキームを通じて、より良い受容野の組み合わせを見つけることを提案します。私たちの検索スキームは、大まかな組み合わせを見つけるためのグローバル検索と、さらに洗練された受容野の組み合わせを取得するためのローカル検索の両方を利用します。グローバル検索では、人間が設計したパターン以外の可能性のある大まかな組み合わせが見つかります。グローバル検索に加えて、組み合わせを効果的に絞り込むための期待に基づく反復ローカル検索スキームを提案します。当社の RF-Next モデルは、受容野検索をさまざまなモデルに接続し、時間的アクションのセグメンテーション、オブジェクト検出、インスタンスのセグメンテーション、音声合成などの多くのタスクのパフォーマンスを向上させます。
RF-Next は多くのアプリケーションをサポートしています。
この研究やコードが研究に役立つと思われる場合は、引用してください。
@article{gao2022rfnext,
title={RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks},
author={Gao, Shanghua and Li, Zhong-Yu and Han, Qi and Cheng, Ming-Ming and Wang, Liang},
journal=TPAMI,
year={2022} }
@inproceedings{gao2021global2local,
title={Global2Local: Efficient Structure Search for Video Action Segmentation},
author={Gao, Shang-Hua and Han, Qi and Li, Zhong-Yu and Peng, Pai and Wang, Liang and Cheng, Ming-Ming},
booktitle=CVPR,
year={2021}
}
ソース コードは研究および教育でのみ無料で使用できます。商業利用する場合は、最初に正式な許可を取得する必要があります。
ご質問がございましたら、高尚華氏までお気軽にメールしてください ( shgao(at)live.com
)