今年世界中であらゆることが起こったにもかかわらず、私たちはまだ多くの素晴らしい研究が発表されるのを見る機会がありました。特に人工知能、より正確に言えばコンピュータービジョンの分野です。今年はさらに、倫理的側面、重要な偏見など、多くの重要な側面が強調されました。人工知能と、人間の脳と AI との関係についての理解は常に進化しており、近い将来に有望な応用例が示されています。これについては、必ず取り上げます。
見逃した方のために、コンピュータ ビジョンに関する今年の最も興味深い研究論文のトップ 10 を以下に挙げます。つまり、これは基本的に、AI と CV における最新のブレークスルーを厳選したリストであり、明確なビデオ説明、より詳細な記事へのリンク、コード (該当する場合) が含まれています。ぜひ読んでみてください。重要な論文を見逃した場合は、コメント欄に記入するか、LinkedIn で直接私に連絡してください。
各論文への完全な参照は、このリポジトリの最後にリストされています。
メンテナー - louisfb01
このリポジトリに追加できなかった素晴らしい論文があれば、 [email protected] までお気軽にメッセージをください。
リストを共有する場合は、Twitter で @Whats_AI または LinkedIn で @Louis (What's AI) Bouchard とタグ付けしてください。
AI の最新のブレークスルーをリリース日ごとに厳選したリスト。わかりやすいビデオ説明、より詳細な記事へのリンク、コードが含まれています。
2020: 素晴らしい AI 論文に満ちた 1 年 - レビュー
水がなければ海はどのように見えるだろうかと考えたことはありますか。水中写真の青緑色の色合いを取り除いても、サンゴ礁の本来の色はそのまま残ります。ハイファ大学の研究者たちは、コンピューター ビジョンと機械学習アルゴリズムを使用して、まさにそれを達成することができました。
ISTオーストリアとマサチューセッツ工科大学の研究者らは、糸状虫などの小さな動物の脳をベースにした新しい人工知能システムを使って自動運転車の訓練に成功した。 Inceptions、Resnets、VGG などの一般的なディープ ニューラル ネットワークが必要とする数百万のニューロンと比較して、彼らは自動運転車を制御できるわずか数個のニューロンでそれを達成しました。彼らのネットワークは、数百万ではなく、19 個の制御ニューロンで構成されるわずか 75,000 個のパラメーターを使用して、自動車を完全に制御することができました。
この新しい方法は、完全な 3 次元シーンを生成でき、シーンの照明を決定する機能を備えています。これらすべてを非常に限られた計算コストで実現し、以前のアプローチと比較して驚くべき結果が得られます。
この第 4 バージョンは、最近 2020 年 4 月に Alexey Bochkovsky らによって導入されました。論文「YOLOv4: オブジェクト検出の最適な速度と精度」。このアルゴリズムの主な目的は、精度の点で高品質な超高速物体検出器を作成することでした。
この新しいアルゴリズムは、ぼやけた画像を高解像度の画像に変換します。超低解像度の 16x16 画像を撮影して、1080p の高解像度の人間の顔に変換できます。信じられないんですか?そうすれば、あなたも私と同じように、1 分以内に自分で試してみることができます。しかし、まず最初に、彼らがどのようにそれを行ったのかを見てみましょう。
Gmail で使用されているような優れた AI は、一貫したテキストを生成し、フレーズを完成させることができます。これも同じ原理を使用して画像を完成させます。すべては教師なしトレーニングで行われ、ラベルはまったく必要ありません。
この新しい画像間変換技術を使用すると、描画スキルがなくても、大まかなスケッチや不完全なスケッチから高品質の顔画像を生成できるようになりました。私と同じくらい描画スキルが低い場合は、目、口、鼻が最終的なイメージにどの程度影響するかを調整することもできます。それが本当に機能するかどうか、そして彼らがどのようにそれを行ったのかを見てみましょう。
この AI は 2D 画像から人物の 3D 高解像度復元を生成します。あなたの画像 1 枚だけで、後ろから見てもあなたにそっくりな 3D アバターが生成されます。
ECCV 2020 最優秀論文賞はプリンストン チームに贈られます。彼らは、オプティカル フロー用の新しいエンドツーエンドのトレーニング可能なモデルを開発しました。彼らの手法は、複数のデータセットにわたる最先端のアーキテクチャの精度を上回り、はるかに効率的です。彼らはコードを Github で誰でも利用できるようにしました。
この AI は、削除された移動オブジェクトの背後にある欠落したピクセルを埋め、現在の最先端のアプローチよりもはるかに高い精度でぼやけの少ないビデオ全体を再構築できます。
祖母が 18 歳だったときの古い、折り畳まれ、さらには破れた写真が、アーチファクトのない高解像度で保存されているところを想像してみてください。これは古い写真の復元と呼ばれるもので、この論文は深層学習アプローチを使用してこの問題に対処する全く新しい道を開いたところです。
人間マット化は非常に興味深いタスクであり、目的は写真の中から人間を見つけて背景を除去することです。完璧な輪郭を持つ人を見つけなければならないというタスクの複雑さのため、達成するのは本当に困難です。この投稿では、長年にわたって使用されてきた最良のテクニックと、2020 年 11 月 29 日に公開された新しいアプローチをレビューします。多くのテクニックは、このタスクを達成するために基本的なコンピューター ビジョン アルゴリズムを使用しています。たとえば、GrabCut アルゴリズムは非常に高速ですが、非常に正確です。
DeOldify は、古い白黒画像やフィルム映像をカラー化して復元する技術です。これは、たった 1 人の Jason Antic によって開発され、今でも更新されています。これは現在、白黒画像をカラー化するための最先端の方法であり、すべてがオープンソースですが、これについては少し後で説明します。
リストを共有する場合は、Twitter で @Whats_AI または LinkedIn で @Louis (What's AI) Bouchard とタグ付けしてください。
[1] アカイナク、デリヤ、トレイビッツ、タリ。 (2019年)。 Sea-Thru: 水中画像から水を除去する方法。 1682 ~ 1691 年。 10.1109/CVPR.2019.00178。
[2] Lechner、M.、Hasani、R.、Amini、A. 他。監査可能な自律性を可能にする神経回路ポリシー。 Nat Mach Intell 2、642–652 (2020)。 https://doi.org/10.1038/s42256-020-00237-3
[3] PP Srinivasan、B. Deng、X. Zhang、M. Tancik、B. Mildenhall、および JT Barron、「Nerv: 再照明とビュー合成のための神経反射率および可視フィールド」、arXiv、2020 年。
[4] A. ボチコフスキー、C.-Y. Wang、および H.-YM Liao、Yolov4: 物体検出の最適な速度と精度、2020。arXiv:2004.10934 [cs.CV]。
[5] S. Menon、A. Damian、S. Hu、N. Ravi、および C. Rudin、パルス: 生成モデルの潜在空間探索による自己教師あり写真アップサンプリング、2020 年。arXiv:2003.03808 [cs.CV]。
[6] M. Chen、A. Radford、R. Child、J. Wu、H. Jun、D. Luan、および I. Sutskever、「ピクセルからの生成事前トレーニング」、第 37 回機械学習国際会議議事録、 HD III および A. Singh 編、ser.機械学習研究論文集、vol. 119、仮想: PMLR、2020 年 7 月 13 ~ 18 日、1691 ~ 1703 ページ。 [オンライン]。
[7] S.-Y. Chen、W. Su、L. Gao、S. Xia、および H. Fu、「DeepFaceDrawing: スケッチからの顔画像のディープ生成」、ACM Transactions on Graphics (Proceedings of ACM SIGGRAPH2020)、vol. 39、いいえ。 4、72:1–72:16、2020。入手可能:http://proceedings.mlr.press/v119/chen20s.html。
[8] S. 斉藤、T. Simon、J. Saragih、および H. Joo、Pifuhd: 高解像度 3D ヒューマン デジタル化のためのマルチレベル ピクセル位置合わせ暗黙関数、2020。arXiv:2004.00452 [cs.CV]。
[9] Z. Teed および J. Deng、Raft: オプティカル フローのための再帰全ペア フィールド変換、2020。arXiv:2003.12039 [cs.CV]。
[10] Y. Zeng、J. Fu、および H. Chao、ビデオ インペインティングのための共同時空間変換の学習、2020 年。arXiv:2007.10247 [cs.CV]。
[ボーナス 1] Z. Wan、B. Zhang、D. Chen、P. Zhang、D. Chen、J. Liao、および F. Wen、ディープ潜在空間変換による古い写真の復元、2020 年。arXiv:2009.07047 [cs. CV]。
[ボーナス 2] Z. Ke、K. Li、Y. Zhou、Q. Wu、X. Mao、Q. Yan、および RW Lau、「リアルタイム ポートレート マットングにグリーン スクリーンは本当に必要ですか?」 ArXiv、vol. abs/2011.11961、2020。
[ボーナス 3] Jason Antic、DeOldify 作成者、https://github.com/jantic/DeOldify