ダークネットフレームワークを利用した「グラデーションの組み合わせによる階層別学習情報の多様性の充実」の実装です。
私たちの論文は、2019 ICCV Workshop on Low-Power Computer Vision に掲載される予定です。
Darknet フレームワークのインストールについては、darknet(pjreddie) または darknet(AlexeyAB) を参照してください。
YOLO-v3-tiny-PRN cfg ファイルと COCO 事前トレーニング済みモデルを提供します。提供されたファイルを使用して、COCO test-dev セットで次の結果を取得できます。
モデル | [email protected] | BFLOP | # パラメータ | GPU FPS | CPU FPS |
---|---|---|---|---|---|
YOLO-v3-tiny [1] | 33.1 | 5.571 | 886万 | 300 | 8 |
YOLO-v3-tiny-PRN | 33.1 | 3.467 | 495万 | 370 | 13 |
また、morden バックボーン EfficientNet_b0 [2] の cfg ファイルと COCO 事前トレーニング済みモデルも提供します。このモデルをトレーニングするには、darknet(AlexeyAB) をインストールする必要があります。
モデル | サイズ | [email protected] | BFLOP |
---|---|---|---|
EfficientNet_b0-PRN | 416x416 | 45.5 | 3.730 |
EfficientNet_b0-PRN | 320×320 | 41.0 | 2.208 |
ここでは、論文には記載されていない COCO テスト開発セットの実験結果をいくつか紹介します。
モデル | サイズ | [email protected] | BFLOP | # パラメータ |
---|---|---|---|---|
ペレ [3] | 304x304 | 38.3 | 2.58 | 598万 |
ペレ-PRN | 320×320 | 40.9 | 2.39 | 316万 |
ペレ-YOLOv3 [1] | 320×320 | 41.4 | 2.99 | 391万 |
ペレ-FPN [4] | 320×320 | 41.4 | 2.86 | 375万 |
ペレ-PRN-3l | 320×320 | 42.5 | 3.98 | 336万 |
mPee-PRN | 320×320 | 42.7 | 2.82 | 381万 |
モデル | サイズ | [email protected] | BFLOP | # パラメータ | GPU FPS | CPU FPS |
---|---|---|---|---|---|---|
ペレ-PRN | 416x416 | 45.0 | 4.04 | 316万 | 111 | 6.0 |
ペレ-YOLOv3 [1] | 416x416 | 45.3 | 5.06 | 391万 | 115 | 5.5 |
ペレ-FPN [4] | 416x416 | 45.7 | 4.84 | 375万 | 115 | 5.8 |
ペレ-PRN-3l | 416x416 | 46.3 | 5.03 | 336万 | ||
mPee-PRN | 416x416 | 46.8 | 4.76 | 381万 | 104 |
[1] Redmon, J.、Farhadi, A. (2018)。 Yolov3: 漸進的な改善です。 arXiv プレプリント arXiv:1804.02767。
[2] Tan, M.、Le, QV (2019)。 EfficientNet: 畳み込みニューラル ネットワークのモデル スケーリングを再考します。 arXiv プレプリント arXiv:1905.11946。
[3] ワン、RJ、リー、X、およびリン、CX (2018)。 Pelee: モバイル デバイス上のリアルタイムの物体検出システム。神経情報処理システムの進歩 (pp. 1963-1972)。
[4] リン、TY、ダラー、P.、ガーシック、R.、ヒー、K.、ハリハラン、B.、およびベロンジー、S. (2017)。物体検出のための機能ピラミッド ネットワーク。コンピューター ビジョンとパターン認識に関する IEEE 会議議事録 (pp. 2117-2125)。
https://github.com/AlexeyAB/darknet