リンク: https://pan.baidu.com/s/1GWkqUOcO6KMOu-uLJrSpbA 抽出コード: vwkx
update: 2022/03/02 記事の解釈を一部更新
MHFormer: 3D 人間の姿勢推定のための複数仮説トランスフォーマー
論文: https://arxiv.org/pdf/2111.12707.pdf
コード: https://github.com/Vegetebird/MHFormer
この論文は、完全な畳み込み形式を使用してオブジェクトと周囲の環境を均一に表現および予測し、それによって正確かつ効率的なパノラマ セグメンテーションを実現することを目的としています。具体的には、この記事では、各オブジェクトと各タイプの環境の意味情報を異なるコンボリューション カーネルにエンコードし、それを高解像度の特徴マップとコンボリューションして、各前景と背景のセグメンテーション結果を直接出力するコンボリューション カーネル ジェネレーターを提案します。このアプローチにより、オブジェクトと環境の個体差と意味的一貫性がそれぞれ保存されます。この方法では、複数のパノラマ セグメンテーション データセットで速度と精度において最先端の結果が得られます。 キーワード: 統合表現、動的畳み込み、パノプティック セグメンテーション arxiv: https://arxiv.org/abs/2012.00720 github: https://github.com/yanwei-li/PanopticFCN
口述論文
FFB6D は、ネットワークフルフロー双方向融合 RGBD 表現学習フレームワークを提案し、それを 6D 姿勢推定問題に適用します。既存の表現学習方法では、RGB の外観情報と深度マップ (点群) の幾何学的情報という 2 つの相補的なデータ ソースをうまく活用できていないことがわかりました。
この目的を達成するために、双方向高密度融合モジュールを設計し、それを CNN と点群ネットワークの各エンコード層とデコード層に適用します。このフルフロー双方向融合メカニズムにより、2 つのネットワークが相互に抽出されたローカルおよびグローバルの補完情報を最大限に活用できるようになり、それによって下流予測タスクのより適切な表現が得られます。さらに、出力表現の選択に関しては、アイテムのテクスチャと幾何学情報に基づいて SIFT-FPS キー ポイント選択アルゴリズムを設計しました。これにより、ネットワークによるキー ポイントの位置特定の困難さが簡素化され、ポーズの精度が向上します。私たちの方法は、複数のベンチマークで大幅な改善を達成しました。そして、この RGBD 表現学習バックボーン ネットワークは、さまざまな予測ネットワークをカスケード接続することで、RGBD を入力として使用するより視覚的なタスクに適用できます。 キーワード: RGBD 表現学習、3D ビジョン、6D 姿勢推定 PDF: https://arxiv.org/abs/2103.02242 コード: https://github.com/ethnhe/FFB6D
科学技術は常に上昇傾向にあります。 VGG スタイルのシングル チャネルのミニマリスト畳み込みニューラル ネットワーク アーキテクチャを最後まで 3x3 畳み込みで「復活」させました。速度とパフォーマンスは SOTA レベルに達し、精度率は 80% 以上です。イメージネット。
VGG スタイル アーキテクチャのトレーニングの難しさを克服するために、構造的な再パラメータ化を使用してトレーニング中にモデル内で恒等マッピングと 1x1 畳み込みブランチを構築し、トレーニング後にそれらを等価的に 3x3 にマージしてモデルを畳み込みます。推論中に 3x3 の畳み込みのみが含まれます。このアーキテクチャには分岐構造がないため、並列性が高く、非常に高速です。また、メイン部分には「3x3-ReLU」という 1 つのオペレーターしかないため、ハードウェアのカスタマイズに特に適しています。 キーワード: 構造の再パラメータ化、ミニマリスト アーキテクチャ、効率的なモデル https://arxiv.org/abs/2101.03697
この記事では、新しい畳み込み演算である動的領域認識畳み込み (DRConv: 動的領域認識畳み込み) を提案します。これは、特徴の類似性に基づいて、カスタマイズされた畳み込みカーネルを異なる平面領域に割り当てることができます。従来の畳み込みと比較して、この畳み込み方法は、画像の意味情報の多様性のモデリング能力を大幅に強化します。標準の畳み込み層では、より多くの視覚要素を抽出するために畳み込みカーネルの数を増やすことができますが、計算コストが高くなります。 DRConv は、学習可能なアロケータを使用して、徐々に増加する畳み込みカーネルを平面次元に転送します。これにより、畳み込みの表現能力が向上するだけでなく、計算コストと変換の不変性も維持されます。
DRConv は、セマンティック情報の複雑で多様な分散を処理するための効果的でエレガントな方法であり、既存のネットワークの標準的な畳み込みをプラグ アンド プレイの特性で置き換えることができ、軽量ネットワークのパフォーマンスが大幅に向上します。この論文では、さまざまなモデル (MobileNet シリーズ、ShuffleNetV2 など) およびタスク (分類、顔認識、検出、セグメンテーション) で DRConv を評価しています。ImageNet 分類では、DRConv ベースの ShuffleNetV2-0.5× 4,600 万の計算レベルで 67.1% のパフォーマンスを達成しました。 、ベースラインより 6.3% 改善しました。 https://arxiv.org/abs/2003.12243
我々は、マクロ構造を変更せずにトレーニング中にモデルのミクロ構造を強化し、それによってパフォーマンスを向上させる畳み込みネットワーク基本モジュール (DBB) を提案します。このモジュールは、トレーニング後の構造の再パラメータ化を通じて畳み込みに等価的に変換できるため、追加の推論オーバーヘッドは発生しません。写真
1x1-KxK 連続畳み込み、平均プーリングなど、等価に変換できる 6 つの構造を要約し、これら 6 つの変換を使用して、さまざまなアーキテクチャで使用できる Inception に似た代表的な DBB インスタンスを提供しました。両方とも大きな成果を達成しました。パフォーマンスの向上。 「学習中の非線形性」(BNなど推論中は線形)と「多様なリンク」(例えば、3x3+3x3よりも1x1+3x3の方が優れている)がDBBの有効性の鍵であることを実験で確認しました。 。 キーワード: 構造の再パラメータ化、推論オーバーヘッドなし、痛みのない改善
過去の研究のほとんどは、大規模なクラスのサンプルのパフォーマンスを犠牲にして、小規模なクラスのサンプルのパフォーマンスに焦点を当てていました。本稿では、大クラスのサンプルカテゴリの性能を損なうことなく、より優れた小クラスのサンプルカテゴリのパフォーマンスを達成できる、効果を忘れない小クラスのサンプルターゲット検出器を提案します。この論文では、事前トレーニングされた検出器が目に見えないクラスに対して誤検知の予測を生成することはほとんどないこと、また RPN が理想的なクラスに依存しないコンポーネントではないこともわかります。これら 2 つの発見に基づいて、我々は、少数のパラメータと推論時間を追加するだけで、効果を忘れることなく小規模クラスのサンプルターゲット検出を実現できる、Re-detector と Bias-Balanced RPN という 2 つのシンプルで効果的な構造を設計しました。 キーワード: 小サンプル学習、ターゲット検出
この論文では、ロングテール データ分布を含む視覚認識タスクを処理するための統一フレームワークを提案します。私たちはまず、ロングテール問題に対処するための既存の 2 段階手法の実験的分析を実施し、既存手法の主なパフォーマンスのボトルネックを発見しました。実験分析に基づいて、ロングテールビジョンタスクを体系的に解決するための分布調整戦略を提案します。
このフレームワークは 2 段階の方法に基づいて設計されています。最初の段階では、インスタンスバランス型サンプリング戦略が特徴表現学習 (表現学習) に使用されます。第 2 段階では、まず入力データのスコアを補正するための入力を意識した位置合わせ関数を設計しました。同時に、データセット分布のアプリオリを導入するために、画像分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーションなどのさまざまな視覚タスクシナリオを処理するための一般化された再重み付けスキームを設計しました。私たちは 4 つのタスクでメソッドを検証し、各タスクで大幅なパフォーマンスの向上を達成しました。 キーワード: 画像分類、セマンティックセグメンテーション、オブジェクト検出、インスタンスセグメンテーション
この論文では初めて、完全畳み込みターゲット検出器の NMS (非最大抑制) 後処理を削除し、エンドツーエンドのトレーニングを実現します。私たちは主流の一段階物体検出方法を分析し、従来の 1 対多のラベル割り当て戦略が NMS に依存するこれらの方法の鍵であることを発見し、予測を意識した 1 対 1 のラベル割り当て戦略を提案しました。さらに、1 対 1 のラベル割り当てのパフォーマンスを向上させるために、特徴表現機能とモデルの収束を加速する補助損失関数を強化するモジュールを提案します。私たちの方法は、NMS を使用しない主流の 1 段階物体検出方法と同等のパフォーマンスを達成します。密集したシーンでは、私たちの方法の再現率は、NMS に依存する物体検出方法の理論上の上限を超えます。 キーワード: エンドツーエンド検出、ラベル割り当て、完全畳み込みネットワーク https://arxiv.org/abs/2012.03544
我々は、最適送信理論に基づいたターゲット検出サンプルマッチング戦略を提案します。これは、既存のサンプルマッチング技術と比較して、次の利点を備えています。 1) 高い検出精度。グローバルに最適なマッチング結果は、安定した効率的な方法で検出器をトレーニングするのに役立ち、最終的に COCO データ セットで最適な検出パフォーマンスを達成できます。 2) 適用可能なシナリオの範囲が広い。既存のターゲット検出アルゴリズムは、密集したターゲットや深刻なオクルージョンなどの複雑なシーンに遭遇した場合、戦略を再設計したり、パラメーターを調整したりする必要があります。最適な送信モデルには、追加の調整を行わずに最適なソリューションを見つけるプロセスが含まれています。ターゲットが密集し、オクルージョンが厳しいさまざまなシーンで最先端のパフォーマンスを発揮し、大きな応用可能性を秘めています。 キーワード: ターゲット検出、最適送信、サンプルマッチング戦略
1 段階検出器のラベル割り当ては静的であり、物体フレームのグローバル情報を考慮していないため、物体の質量分布サンプリングに基づく物体検出器を提案します。本稿では,対象フレームの領域特徴を抽出し,ガウス混合モデルに基づいて予測フレームの品質分布をモデル化することで,動的に品質分布を選択できる品質分布符号化モジュールQDEと品質分布サンプリングモジュールQDSを提案する.検出フレームの正の値。負のサンプル割り当て。この方法には、トレーニング段階でのラベル割り当てのみが含まれ、COCO などの複数のデータセットで現在の最良の結果を達成できます。 キーワード: ラベルの割り当て
論文で提案された FSCE 手法は、特徴表現の最適化の観点から、小さなサンプルの物体検出の問題を解決することを目的としています。サンプル数が少ない物体検出タスクでは、ターゲット サンプルの数が制限されているため、ターゲット サンプルの正しい分類が最終的なパフォーマンスに大きな影響を与えることがよくあります。 FSCE は、対照学習のアイデアを使用して、関連する候補フレームをエンコードし、その特徴表現を最適化し、特徴のクラス内コンパクト性とクラス間の反発を強化します。最終的な方法は、共通の COCO および Pascal VOC データセットに対して効果的に改善されました。 。 キーワード: 小規模サンプルのターゲット検出、比較学習論文リンク: https://arxiv.org/abs/2103.05950
既存の主流の NAS アルゴリズムは、検証セット上のサブネットワークの予測パフォーマンスを通じてモデル検索を実行しますが、パラメーター共有メカニズムの下では、検証セット上の予測パフォーマンスとモデルの実際のパフォーマンスの間には大きな差異があります。私たちは初めて、予測パフォーマンスに基づくモデル評価のパラダイムを打ち破り、モデルの収束速度の観点からサブネットワークを評価し、モデルの収束が速いほど、対応する予測パフォーマンスが高くなるという仮説を立てました。
モデル収束フレームワークに基づいて、モデル収束が画像の実際のラベルとは何の関係もないことを発見し、さらにスーパーネットワークトレーニングにランダムラベルを使用する新しいNASパラダイム-RLNASを提案しました。 RLNAS は、複数のデータセット (NAS-Bench-201、ImageNet) および複数の検索スペース (DARTS、MobileNet のような) で検証されており、実験結果は、RLNAS がランダムなラベルで検索された構造のみを使用して既存の NAS のパフォーマンスを達成できることを示しています。 SOTAレベル。 RLNAS は最初は直観に反しているように思えますが、予想外に良い結果が NAS コミュニティに強力なベースラインを提供し、NAS の性質についての考えをさらに刺激します。 キーワード: ニューラルネットワークアーキテクチャ探索、モデル収束仮定、ランダムラベル https://arxiv.org/abs/2101.11834
現在の人間の姿勢推定アルゴリズムは、ヒート マップ回帰を使用して最終的な関節点を取得します。これらの方法は通常、すべてのスケルトン キーポイントをカバーする固定標準偏差 2D ガウス カーネルを使用して真のヒート マップを構築し、真のヒート マップを使用してモデルを監視します。異なる人々の関節点の実際のヒート マップは同じガウス カーネルを使用して構築されるため、この方法では異なる人々のスケールの違いが考慮されません。これによりラベルの曖昧さが生じ、モデルの効果に影響を及ぼします。
この論文では、人体のサイズに基づいてラベルを構築するために必要な標準偏差を適応的に生成できるスケール適応型ヒート マップ回帰を提案します。これにより、モデルがさまざまなスケールの人体に対してより堅牢になります。また、体重適応型回帰も提案されています。正のサンプルと負のサンプルのバランスをとり、スケール適応ヒート マップ回帰効果をさらに調査します。この論文は最終的に、ボトムアップの人間の姿勢推定において最も高度な性能を達成しました。 キーワード: 人間の姿勢推定、ボトムアップ、適応ヒートマップ回帰 https://arxiv.org/abs/2012.15175 https://github.com/greatlog/SWAHR-HumanPose
GID は、検出タスクに基づいた新しい蒸留方法を提案します。 GISM モジュールは、教師とスタッドネットからそれぞれ一般インスタンス (GI) を抽出することにより、特徴ベース、関係ベース、および応答ベースの抽出のために大きな差異を持つインスタンスを適応的に選択することが提案されています。この方法は関係知識蒸留を検出フレームワークに初めて適用し、蒸留ターゲットを陽性サンプル蒸留と陰性サンプル蒸留の独立した考慮からより本質的な GI 蒸留に統合します。このプロセスは GT に依存せず、SOTA に到達します。 キーワード: ターゲット検出、知識の蒸留 https://arxiv.org/abs/2103.02340
我々は、活性化するか否かを適応的に学習できる新しい活性化関数 ACON (活性化するか否か) を提案します。 ACON は、ReLU と Swish の間の関係を確立しました。2 つの形式は大きく異なりますが、Swish は ReLU の滑らかな形式であることがわかりました。この発見に基づいて、SENet と比較してコストなしで 2 倍の増加を達成した、meta-acon など、さらに多くの亜種を提案しました。この簡潔で効果的な活性化関数の汎化パフォーマンスを複数のタスクで検証します。 キーワード: 活性化関数、ニューラルネットワーク https://arxiv.org/abs/2009.04759
この記事では、まず 1 段階検出器 RetinaNet における FPN の役割を分析しました。実験を通じて、FPN で異なるスケールのオブジェクトを異なる検出レベルに割り当てるという分割統治のアイデアが優れた効果を発揮することがわかりました。検出結果に影響を与えます。最適化の観点から見ると、このアイデアは検出における最適化問題を分解し、最適化学習を簡素化し、検出精度を向上させます。ただし、マルチレベル特徴に基づいた FPN の設計は、検出方法のネットワーク構造を複雑にし、追加の計算を導入し、検出速度を遅くします。上記の問題を回避するために、本論文は単一レベルですべてのスケールのオブジェクトを検出すると同時に、単一レベルの特徴検出における最適化が困難であるという問題を解決するために、ホールエンコーダとバランスマッチングの解決策を提案する。提案した。
この記事で提案する単一レベルの特徴ベースの検出器 YOLOF の検出精度は、C5 特徴のみを使用した場合の FPN ベースの RetinaNet の検出精度に匹敵し、検出速度は RetinaNet の 2.5 倍です。さらに、同じく C5 機能のみを使用する DETR と比較して、YOLOF はより高速なコンバージェンス (7 倍) で同等のパフォーマンスを達成できます。 キーワード: シングルステージターゲット検出、シングルスケール機能、検出速度と精度のバランス https://arxiv.org/abs/2103.09460 https://github.com/megvii-model/YOLOF
標識コストを増やさずに検出器の性能を向上させることがこの研究の目標です。この論文では、検出器をトレーニングするために少数の境界ボックスと多数のポイント アノテーションを選択します。ポイント アノテーションが選択されるのは、情報が豊富であるためです。ポイント アノテーションにはインスタンスの位置情報とカテゴリ情報が含まれており、アノテーションのコストが低いからです。この論文では、ポイント エンコーダを DETR に拡張することにより、ポイント DETR を提案します。全体的なフレームワークは次のとおりです。バウンディング ボックス データを通じてポイント DETR をトレーニングし、ポイント アノテーションをクエリにエンコードし、バウンディング ボックスと疑似ボックス データを通じてスチューデント モデルを予測します。 COCO データセットでは、完全にアノテーションが付けられたデータの 20% のみを使用して、検出器は 33.3AP を達成し、ベースラインを 2.0AP 上回りました。 キーワード: ターゲット検出、半教師あり、弱い教師
広角レンズは広い視野で人気がありますが、背景の線が曲がったり、顔が伸びたり、縮んだり、傾いたりするなど、レンズの歪みや遠近感の歪みが発生します。この目的を達成するために、本論文は、線補正ネットワーク、顔補正ネットワーク、および遷移モジュールからなるカスケード歪み補正ネットワークを構築し、背景が透視投影を示し、顔領域が立体投影を示し、両者の間を滑らかに遷移するようにする。 FOVを維持しながらさまざまな歪みを除去します。この手法はカメラパラメータを必要とせず、リアルタイム性を実現でき、定性的・定量的評価の両面で既存の手法を上回ります。 キーワード: 広角ポートレート歪み補正、ディープカスケードネットワーク
我々は新しい教師なしオプティカルフロー学習手法UPFlowを提案する。現在の教師なしオプティカル フロー手法には、マルチスケール ピラミッド処理において 2 つの問題があることがわかりました。1 つはフロー アップサンプリング プロセスにおける補間曖昧性の問題、もう 1 つはマルチスケール フローの監視不足の問題です。この点において、補間フローと補間マップを使用してアップサンプリング補間メカニズムを変更し、それによってより洗練されたアップサンプリングを実現する自己誘導型アップサンプリングモジュールを提案します。さらに、ネットワークの最終出力を擬似ラベルとして使用して、マルチスケール フローの学習を監視することを提案します。これらの改善に基づいて、私たちの方法では、より鮮明でシャープなオプティカル フローの結果を得ることができます。 Sintel、KITTI 2012、KITTI 2015 など、複数のオプティカル フロー ベンチマーク データセットで実験を実施しています。 UPFlow のパフォーマンスは、現在最高の教師なしオプティカル フロー アルゴリズムを約 20% 上回っています。 キーワード: オプティカルフロー推定、教師なし学習 https://arxiv.org/abs/2012.00212
NBNet は、画像ノイズ低減の問題を解決するフレームワークです。私たちは、画像適応投影という新しい視点でこの問題に取り組みます。具体的には、特徴空間上の一連の部分空間を学習し、適切な信号部分空間を選択してこの部分空間に投影することで画像のノイズ除去を実現できます。以前の 1 ボリュームのネットワーク構造と比較して、NBNet は投影を通じて画像内の構造情報、特に弱いテクスチャ領域を自然かつ効率的に抽出して利用し、画像の復元に役立てることができます。このようなシンプルな方法により、NBNet は少ない計算量で DND と SIDD の 2 つのベンチマークで SOTA を達成しました。 キーワード: 画像ノイズ除去、部分空間 https://arxiv.org/abs/2012.15028
この研究では、メトリクスの重要な属性である「ダイナミック レンジ」を深層メトリクス学習に導入し、その結果「ダイナミック メトリクス学習」と呼ばれる新しいタスクが誕生しました。以前の深度測定には、顔と歩行者が似ているか似ていないかを区別するだけなど、実際には 1 つのスケールしか含まれていないことがわかりました。このような測定ツールはどれほど正確であっても、柔軟性に欠けており、実際の使用では用途が限られています。実際、私たちが日常的に使用する測定ツールには、通常、さまざまなスケールの物体を測定するために複数のスケール (1 mm、1 cm、さらには 10 cm など) が付いています。私たちは、ディープメトリクスラーニングの分野にダイナミックレンジを導入する時期が来たと信じています。視覚的な概念自体が異なるサイズを持っているため、「動物」と「植物」はすべて大きなスケールに対応し、「ヘラジカ」は比較的小さなスケールに対応します。小規模なスケールでは、2 頭のヘラジカは非常に異なって見えるかもしれませんが、別の大きなスケールでは、同じ 2 頭のヘラジカは非常に似ていると考えられるはずです。
この目的を達成するために、我々はこの動的な計量学習タスクを提案します。このタスクでは、異なる意味論的サイズの視覚概念の類似性の尺度を同時に提供できる単一の計量空間を学習する必要があります。さらに、3 つのマルチスケール データセットを構築し、単純なベースライン手法を提案します。私たちは、ダイナミック レンジがディープ メトリック ラーニングの不可欠な特性となり、ディープ メトリック ラーニングの分野全体に新しい視点と新しいアプリケーション シナリオをもたらすと信じています。
膵臓質量セグメンテーション、診断、および定量的患者管理のための 3D グラフ解剖学ジオメトリ統合ネットワーク
深部病変トラッカー: 4D 縦断イメージング研究における病変のモニタリング https://arxiv.org/abs/2012.04872
脊椎の矯正と解剖学的に制約された最適化による CT での自動脊椎位置特定と識別 https://arxiv.org/abs/2012.07947
適応時間特徴解像度を備えた 3D CNN https://arxiv.org/abs/2011.08652
KeepAugment: シンプルな情報保存データ拡張 https://arxiv.org/pdf/2011.11778.pdf
ハイジャック GAN: 事前トレーニングされたブラックボックス GAN の意図しない使用 https://arxiv.org/pdf/2011.14107.pdf
D-NeRF: 動的シーン用のニューラル放射フィールド https://arxiv.org/abs/2011.13961
ビデオの時間活動検出のための粗密ネットワーク
自己教師あり検出の事前トレーニングのためのインスタンスのローカリゼーション https://arxiv.org/pdf/2102.08318.pdf https://github.com/limbo0000/InstanceLoc
カプセルを使用した弱い教師付きのグラウンデッド視覚的質問応答
4D パノプティック LiDAR セグメンテーション https://arxiv.org/abs/2102.12472
ドッグファイト: ドローンのビデオからドローンを検出する
オブジェクト検出のための複数インスタンスのアクティブ ラーニング https://github.com/yuantn/MIAL/raw/master/paper.pdf https://github.com/yuantn/MIAL
マルチビュー クラスタリングのための表現の調整の再検討
道路ダイナミクスとコストマップの自己監視型同時マルチステップ予測
階層型スタイルによる画像から画像への翻訳 Xinyang Li、Shengchuan Zhang、Jie Hu、Liujuan Cao、Xiaopeng Hon、Xudong Mao、Feiyue Huang、Yongjian Wu、Rongrong Ji https://arxiv.org/abs/2103.01456 https:/ /github.com/imlixinyang/HiSD
FLAVR: 高速フレーム補間のためのフローに依存しないビデオ表現 https://arxiv.org/pdf/2012.08512.pdf https://tarun005.github.io/FLAVR/Code https://tarun005.github.io/FLAVR/
Patch-NetVLAD: 場所認識のためのローカル-グローバル記述子のマルチスケール融合 Stephen Hausler、Sourav Garg、Ming Xu、Michael Milford、Tobias Fischer https://arxiv.org/abs/2103.01486
カメラの動きと物体検出による深度 Brent A. Griffin、Jason J. Corso https://arxiv.org/abs/2103.01468
UP-DETR: トランスフォーマーを使用した物体検出のための教師なし事前トレーニング https://arxiv.org/pdf/2011.09094.pdf
マルチステージプログレッシブ画像復元 https://arxiv.org/abs/2102.02808 https://github.com/swz30/MPRNet
リジッド 3D シーン フローの弱教師あり学習 https://arxiv.org/pdf/2102.08945.pdf https://arxiv.org/pdf/2102.08945.pdf https://3dsceneflow.github.io/
少数ショット学習のための不変表現と等変表現の相補的な強みを探る Mamshad Nayeem Rizve、Salman Khan、Fahad Shahbaz Khan、Mubarak Shah https://arxiv.org/abs/2103.01315
ImageNet の再ラベル付け: 単一ラベルからマルチラベルへ、グローバルラベルからローカライズされたラベルへ https://arxiv.org/abs/2101.05022 https://github.com/naver-ai/relabel_imagenet
効率的なモデル設計のためのチャネル ディメンションの再考 https://arxiv.org/abs/2007.00992 https://github.com/clovaai/rexnet
ビデオにおける時間活動検出のための粗密ネットワーク Kumara Kahatapitiya、Michael S. Ryuo https://arxiv.org/abs/2103.01302
3D キャラクターの二次モーション用のディープ エミュレーター Mianlun Zheng、Yi Zhou、Duygu Ceylan、Jernej Barbic https://arxiv.org/abs/2103.01261
潜在空間バイアス除去による公平な属性分類 https://arxiv.org/abs/2012.01469 https://github.com/princetonvisualai/gan-debiasing https://princetonvisualai.github.io/gan-debiasing/
単一画像の影除去のための自動露出フュージョン Lan Fu、Changqing Zhou、Qing Guo、Felix Juefei-Xu、Hongkai Yu、Wei Feng、Yang Liu、Song Wang https://arxiv.org/abs/2103.01255
Less is More: スパース サンプリングによるビデオと言語学習のための CLIPBERT https://arxiv.org/pdf/2102.06183.pdf https://github.com/jayleicn/ClipBERT
MetaSCI: ビデオ圧縮センシングのためのスケーラブルで適応的な再構成 Zhengjue Wang、Hao Zhang、Ziheng Cheng、Bo Chen、Xin Yuan https://arxiv.org/abs/2103.01786
AttentiveNAS: Attentive によるニューラル アーキテクチャ検索の改善 https://arxiv.org/pdf/2011.09011.pdf
3D 点群生成のための拡散確率モデル Shitong Luo、Wei Hu https://arxiv.org/abs/2103.01458
目に見えるものだけではありません: マルチモーダル知識を蒸留することによる、音声による自己監視型の複数オブジェクトの検出と追跡 Francisco Rivera Valverde、Juana Valeria Hurtado、Abhinav Valada https://arxiv.org/abs/2103.01353 http://rl. uni-freiburg.de/research/multimodal-distill
スタイルでのエンコーディング: 画像から画像への変換のための StyleGAN エンコーダー https://arxiv.org/abs/2008.00951 https://github.com/eladrich/pixel2style2pixel https://eladrich.github.io/pixel2style2pixel/
階層的で部分的に観察可能な目標主導型政策 目標を使った学習 関係グラフ Xin Ye、Yezhou Yang https://arxiv.org/abs/2103.01350
RepVGG: VGG スタイルの ConvNet を再び素晴らしいものにする https://arxiv.org/abs/2101.03697 https://github.com/megvii-model/RepVGG
注意を超えたトランスフォーマーの解釈可能性の視覚化 https://arxiv.org/pdf/2012.09838.pdf https://github.com/hila-chefer/Transformer-Explainability
PREDATOR: オーバーラップの低い 3D 点群の登録 https://arxiv.org/pdf/2011.13005.pdf https://github.com/ShengyuH/OverlapPredator https://overlappredator.github.io/
異常検出のための多重解像度知識の蒸留 https://arxiv.org/abs/2011.11108
物体検出のための野生のラベルなし陽性データ精製
画像の超解像度のためのデータフリーの知識の蒸留
多様な正規化された動的ネットワーク プルーニング
事前トレーニング済み画像処理トランスフォーマー https://arxiv.org/pdf/2012.00364.pdf
ReNAS: ニューラル アーキテクチャ検索の相対論的評価 https://arxiv.org/pdf/1910.01523.pdf
AdderSR: エネルギー効率の高い画像の超解像度に向けて https://arxiv.org/pdf/2009.08891.pdf https://github.com/huawei-noah/AdderNet
自然環境での学生ネットワークの学習 https://arxiv.org/pdf/1904.01186.pdf https://github.com/huawei-noah/DAFL https://www.zhihu.com/question/446299297
HourNAS: 砂時計レンズによる非常に高速なニューラル アーキテクチャ検索 https://arxiv.org/pdf/2005.14446.pdf
クロスモーダル検索のための確率的埋め込み https://arxiv.org/abs/2101.05068
PLOP: 継続的なセマンティックセグメンテーションを忘れずに学習する https://arxiv.org/abs/2011.11390
Rainbow Memory: 多様なサンプルの記憶による継続的な学習
リアルタイム画像編集のための GAN における潜在の空間次元の活用
1.GhostNet: 安価な運用によるさらなる機能 (Mobilenet v3 を超えるアーキテクチャ) 論文リンク: https://arxiv.org/pdf/1911.11907arxiv.org モデル (ARM CPU での驚異的なパフォーマンス): https://github com/iamhankai /ghostnetgithub.com
MobileNetV3 や FBNet などの他の SOTA 軽量 CNN を上回りました。
ADDERNET:深い学習における乗算は本当に必要ですか?
周波数ドメインコンパクト3D畳み込みニューラルネットワーク(3DCNN圧縮)ペーパーリンク:https://arxiv.org/pdf/19090497777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777777
神経アーキテクチャの半教師評価者(ニューラルネットワーク精度予測因子NAS)
ヒット検出器:階層的な三位一体アーキテクチャ検索オブジェクト検出の検索(NAS検出)バックボーンネックヘッド検索、トリニティ
CARS:効率的なニューラルアーキテクチャ検索(NAS)の継続的な進化は効率的であり、分化性と進化の複数の利点があり、パレートのフロントリサーチを出力できます
Gan(Pu+Gan)での陽性の不明確な分類について
学習マルチビュー3Dポイントクラウド登録(3Dポイントクラウド)ペーパーリンク:arxiv.org/abs/2001.05119
細粒化アクション認識用紙リンクのためのマルチモーダルドメイン適応:arxiv.org/abs/2001.09691
アクション修飾子:副詞からの学習ビデオペーパーリンク:arxiv.org/abs/1912.06617
ポーラーマスク:極地表現によるシングルショットインスタンスセグメンテーション(インスタンスセグメンテーションモデリング)紙リンク:arxiv.org/abs/1909.13226紙の解釈:https://zhuanlan.zhihu.com/p/84890413オープンソースコード:https:// github。 com/xieenze/polarmask
ニューラルアーキテクチャ検索(NAS)のパフォーマンス推定を再考することは、ブロックワイズニューラルアーキテクチャ検索の実際の時間をかける部分がパフォーマンスの推定部分であるため、この記事ではブロックワイズNASの最適なパラメーターを見つけます。
人間のポーズ推定ペーパーリンクの配電覚醒座標表現リンク:arxiv.org/abs/1910.06278 github:https://github.com/ilovepose/darkpose著者チームホームページ:https://ilovephes.github.io/ coco/coco/coco/coco/coco/coco/coco/
https://arxiv.org/abs/2002.12204
https://arxiv.org/abs/2002.11297
https://arxiv.org/abs/2002.12259
https://arxiv.org/abs/2002.12213
https://arxiv.org/abs/2002.12212
6.偏ったトレーニングから公平なシーングラフを生成します
https://arxiv.org/abs/2002.11949
https://arxiv.org/abs/2002.11930
https://arxiv.org/abs/2002.11927
https://arxiv.org/abs/2002.11841
https://arxiv.org/abs/1912.03330
https://arxiv.org/abs/2002.11812
https://arxiv.org/abs/1911.07450
https://arxiv.org/abs/2002.11616
https://arxiv.org/abs/2002.11566
https://arxiv.org/abs/2002.11359
https://arxiv.org/pdf/2002.10638.pdf
https://arxiv.org/pdf/1911.11907.pdf
https://arxiv.org/pdf/1912.13200.pdf
https://arxiv.org/abs/1909.04977
https://arxiv.org/abs/1911.06634
https://arxiv.org/pdf/2001.05868.pdf
https://arxiv.org/pdf/1909.13226.pdf
https://arxiv.org/pdf/1811.07073.pdf
https://arxiv.org/pdf/1906.03444.pdf
https://arxiv.org/abs/2002.10310
https://arxiv.org/abs/1906.03444
https://geometry.cs.ucl.ac.uk/projects/2020/neuraltexture/
https://arxiv.org/abs/2002.11576
https://arxiv.org/pdf/1912.06445.pdf
https://arxiv.org/pdf/1912.02184