世界はまだ回復していますが、特に人工知能の分野では、研究が熱狂的なペースを遅くしていません。さらに、倫理的側面、重要なバイアス、ガバナンス、透明性など、多くの重要な側面が今年強調されました。人工知能と人間の脳の理解とAIへのリンクは絶えず進化しており、近い将来の私たちの生活の質を改善する有望なアプリケーションを示しています。それでも、どのテクノロジーを適用するかに注意する必要があります。
「科学は私たちがすべきことを教えてくれません。私たちにできることだけです。」
- ジャン・ポール・サルトル、存在、そして何も
あなたがそれらのいずれかを逃した場合に備えて、今年の最も興味深い研究論文は次のとおりです。要するに、AIの最新のブレークスルーのキュレーションされたリストと、明確なビデオ説明、より詳細な記事へのリンク、およびコード(該当する場合)を使用して、リリース日ごとのデータサイエンスのリストです。読んでください!
各論文への完全な参照は、このリポジトリの最後にリストされています。このリポジトリを主演して、最新の状態を保ちましょう!ショ和
メンテナー:louisfb01
私のニュースレターを購読する - 毎週説明されているAIの最新のアップデート。
このリポジトリに追加するために見逃したかもしれない興味深い論文を私にメッセージを送ってください。
Twitter @whats_aiまたはLinkedIn @louis(What's AI)Bouchardでリストを共有するとタグを付けてください!
明確なビデオ説明、より詳細な記事へのリンク、およびコードを備えた2021年のトップ10のCV出版物のキュレーションリスト。
2021年のトップ10のコンピュータービジョンペーパー
?私の仕事をサポートし、W&B(無料で)を使用してML実験を追跡し、仕事を再現できるか、チームと協力したい場合は、このガイドに従って試してみることができます。ここのコードのほとんどはPytorchベースであるため、PytorchでW&Bを使用するためのクイックスタートガイドは共有するのが最も興味深いと考えました。
このクイックガイドに従って、コードまたは下のレポスの同じW&Bラインを使用して、すべての実験をW&Bアカウントで自動的に追跡します!セットアップに5分以上かかることはなく、私のためにあなたの人生を変えるでしょう!これは、興味があればハイパーパラメータースイープを使用するためのより高度なガイドです:)
?このリポジトリと私が行ってきた仕事を後援してくれたWeight&Biaseに感謝します。また、このリンクを使用してW&Bを試してみてください!
Openaiは、テキストキャプションから画像を生成できるネットワークを正常にトレーニングしました。 GPT-3およびImage GPTに非常に似ており、驚くべき結果を生み出します。
Googleは修正されたStyleGan2アーキテクチャを使用して、自分の画像のみを使用して必要なズボンやシャツを自動的に試してみることができるオンラインフィッティングルームを作成しました。
TL; DR:それらは、ガンの効率と畳み込みアプローチと変圧器の表現力を組み合わせて、意味的に誘導された高品質の画像合成のための強力で時間効率の良い方法を生成しました。
人間の能力から、AIの研究コミュニティにとってより一般的で信頼できるAIと10の質問へのインスピレーションを引き出します。
Odei Garcia-Garin et al。バルセロナ大学から、航空画像から浮遊ゴミを検出して定量化できる深い学習ベースのアルゴリズムを開発しました。また、海面の画像内で、フローティングマリンマクロリッターまたはFMMLと呼ばれるこれらのガベージをユーザーが識別できるようにするWeb指向のアプリケーションを作成しました。
オブジェクトの写真を撮り、3Dで作成している映画やビデオゲームに挿入して、イラストの3Dシーンに挿入することがどれほどクールか想像してみてください。
彼らは基本的に、強力なStyleGan2アーキテクチャでトランスの注意メカニズムを活用して、それをさらに強力にします!
私の毎週のニュースレターを購読し、2022年にAIの新しい出版物を最新の状態に保ちましょう!
AIプロファイルを右にスワイプしますか?実際の人間を機械と区別できますか?これは、この研究が出会い系アプリでAIメイドの人々を使用して明らかにすることです。
トランスはコンピュータービジョンにCNNを置き換えますか? 5分も経たないうちに、The Swin Transformerと呼ばれる新しい論文を使用して、変圧器アーキテクチャをコンピュータービジョンにどのように適用できるかがわかります。
Ganverse3Dと呼ばれるこの有望なモデルは、カスタマイズおよびアニメーション化できる3Dフィギュアを作成するための画像のみが必要です!
「私は、ビジョンアプリケーションのディープネット、それらの成功、そして私たちが対処しなければならない制限について、すべてを公然と共有します。」
ビュー合成の次のステップ:永続的なビュー生成。目標は、イメージを取り入れて風景を探索することです。
このAIを搭載した神経界面では、切断者は生命のような器用さと直感性を備えた神経生産の手を制御できます。
追加する新しい背景の照明に基づいて、すべてのポートレートを適切に再定住させます。写真の背景を変えたいと思ったことはありませんが、現実的に見えますか?あなたがすでにそれを試したなら、あなたはそれが単純ではないことをすでに知っています。自分の家で自分の写真を撮って、ビーチの背景を変えることはできません。見た目が悪く、現実的ではありません。誰もがちょうど「それはフォトショップされている」と言うだけです。映画やプロのビデオには、高品質の画像を再現するための完璧な照明とアーティストが必要であり、それは非常に高価です。自分の写真でそれを行う方法はありません。それともできますか?
入力として短いビデオのみから移動する人間または動物の3Dモデルを生成します。これは、入力として短いビデオのみから移動する人間または動物の3Dモデルを生成するための新しい方法です。確かに、これは奇妙な形であり、動くことができるということを実際に理解していますが、これはまだ多くのオブジェクトではなく、まだ1つの「オブジェクト」であるため、まだ添付されたままにする必要があります...
このAIはビデオゲームにライブで適用し、すべてのフレームをより自然に見えるように変換できます。 Intel Labsの研究者は、Enhing Photorealism Enhancementと呼ばれるこの論文を公開しました。そして、これが「ちょうど別のガン」であると思うなら、ビデオゲームの写真を入力として撮影し、自然界のスタイルに従ってそれを変更してください。彼らはこのモデルに2年間取り組み、非常に堅牢にしました。ビデオゲームにライブで適用し、すべてのフレームをより自然に見えるように変換できます。ゲームのグラフィックにはるかに少ない労力をかける可能性を想像してください。
2021年に深い偽物を見つける方法。人工知能を使用してディープフェイクを見つける米国陸軍技術の突破。
彼らはいつもそこにいたように見えますが、最初の現実的なディープファークは2017年まで登場しませんでした。それは、史上初の偽の画像から、自動的に生成されたビデオで自動的に生成されたものから、サウンドで誰かの同じコピーに自動的に生成されました。
現実には、実際のビデオや写真とディープファークの違いはもう見えません。どうすればそうでないかをどのように伝えることができますか? AIがそれらを完全に生成できる場合、オーディオファイルまたはビデオファイルを証明として法廷でどのように使用できますか?さて、この新しい論文はこれらの質問に対する答えを提供するかもしれません。そして、ここでの答えは、再び人工知能の使用かもしれません。 「私はそれを見るとき、私はそれを信じる」ということわざはすぐに「私はそれを信じるように私に言うとき、私はそれを信じるでしょう…」
この新しい機械学習ベースのアプローチを使用して、あらゆるスタイルを4K画像にリアルタイムで適用してください!
この記事は、それ自体が新しいテクノロジーに関するものではありません。代わりに、それはGANの新しくエキサイティングなアプリケーションについてです。確かに、あなたはタイトルを見ました、そしてそれはクリックベイトではありませんでした。このAIは、変化にコミットする前に、髪を転送してそれがどのように見えるかを確認できます…
この新しいFacebook AIモデルは、同じスタイルに従って、自分の言語で画像でテキストを直接翻訳または編集できます。
あなたが言語を話さない別の国で休暇中にいると想像してください。あなたは地元のレストランを試してみたいのですが、彼らのメニューはあなたが話さない言語です。私たちのほとんどがメニュー項目や道順を見ても、何が書かれているかを理解できないかどうかにかかわらず、私たちのほとんどがすでにこの状況に直面しているので、これはそれほど難しくないと思います。さて、2020年には、携帯電話を取り出し、Googleが表示されているものを翻訳します。 2021年には、Google翻訳を開く必要さえありません。翻訳するために1つずつ見えるものを書く必要さえありません。代わりに、Facebook AIでこの新しいモデルを使用して、自分の言語で画像内のすべてのテキストを翻訳するだけです…
研究論文をもっと読みたい場合は、より多くの研究論文を見つけて読むための最善のヒントを共有する私の記事を読むことをお勧めします。
このモデルは写真を撮り、どの粒子が動いているのかを理解し、現実的にそれらを無限のループでアニメーション化しながら、このような驚くほど見えるビデオを完全に作成している写真の残りの部分を保存します...
変更されたGanアーキテクチャを使用して、背景や他のオブジェクトに影響を与えることなく、画像内のオブジェクトを移動できます!
Openaiのこの新しいモデルが単語からコードを生成する方法をご覧ください!
Appleを使用すると、IOS 15で画像やビデオを正確にキュレートおよび整理することができます。
画像生成のための複雑なガンとトランスのアーキテクチャに別れを告げてください! Chenling Meng et alによるこの新しい方法。スタンフォード大学とカーネギーメロン大学から、ユーザーベースの入力から新しい画像を生成できます。芸術的なスキルをゼロの私のような人々でさえ、クイックスケッチから美しい画像や修正を生み出すことができます...
スケッチに続いて画像を生成することにより、すべての人がGANSトレーニングを容易にします!確かに、この新しい方法では、あなたがそれを提供できる最も単純なタイプの知識、つまり手描きのスケッチに基づいてあなたのGanの出力を制御できます。
テスラの車が他の車両と一緒に道路を見るだけでなくナビゲートできるのか疑問に思うなら、これはあなたが待ち望んでいたビデオです。数日前は、テスラのAIのディレクターであるAndrej Karpathyなどが、Teslaのオートパイロットが8つのカメラを介して道路のナビゲーションプロセスにどのように機能するかを提示した最初のテスラAIの日でした。
AIは画像を生成し、多くの脳力と試行錯誤を使用して、研究者は特定のスタイルに続いて結果を制御できます。今、この新しいモデルを使用すると、テキストのみを使用してそれを行うことができます!
タイムレンは、ビデオのフレームの間の粒子の動きを理解して、目でも見えない速度で実際に起こったことを再構築することができます。実際、それは私たちのインテリジェントな携帯電話と他のモデルが以前に到達できなかった結果を達成しています!
私の毎週のニュースレターを購読し、2022年にAIの新しい出版物を最新の状態に保ちましょう!
ビデオを編集したかったことはありますか?
誰かを削除または追加するか、背景を変更したり、少し長くしたりするか、解像度を変更して特定のアスペクト比に適合して圧縮したり伸ばしたりせずに変更します。すでに広告キャンペーンを実行している人にとっては、ABテスト用の動画のバリエーションを持ち、最適なものを確認したいと思います。さて、Niv Haim et alによるこの新しい研究。 1つのビデオとHDでこれらすべてを行うのに役立ちます!
実際、簡単なビデオを使用して、高品質のビデオで数分または数分で言及したタスクを実行できます。基本的に、念頭に置いているビデオ操作またはビデオ生成アプリケーションに使用できます。それはあらゆる点でガンを上回ることさえ、深い学習の派手な研究を使用したり、巨大で非実用的なデータセットを必要としたりしません!そして、最良のことは、この手法が高解像度のビデオに拡張可能であることです。
DeepMindは、50人以上の専門家気象学者によって評価された精度と有用性のために、状況の89%で広く使用されているNowcasting Methodを上回ることができる生成モデルをリリースしました!彼らのモデルは、今後2時間で沈殿を予測することに焦点を当てており、それを驚くほどうまく達成しています。これは生成モデルです。つまり、単に予測するのではなく、予測を生成することを意味します。基本的に、過去のレーダーデータを使用して、将来のレーダーデータを作成します。したがって、過去の時間と空間コンポーネントの両方を使用して、近い将来に見えるものを生成できます。
これは、Snapchatフィルターと同じと同じと見なすことができ、顔を取り、変更を加えた新しい顔を生成します。このような生成モデルを訓練するには、人間の顔と生成したい顔の両方からのデータの束が必要です。次に、何時間も訓練された非常に類似したモデルを使用して、強力な生成モデルができます。この種のモデルは、多くの場合、GANSアーキテクチャをトレーニング目的で使用し、発電機モデルを個別に使用します。
ビデオやテレビ番組に耳を傾けたことがありますが、俳優は完全に聞こえませんでしたか、それとも音楽が大きすぎましたか?まあ、カクテルパーティーの問題とも呼ばれるこの問題は、二度と起こらないかもしれません。三菱とインディアナ大学は、新しいモデルと、適切なサウンドトラックを特定するこのタスクに取り組む新しいデータセットを公開しました。たとえば、同じオーディオクリップを撮影した場合、音楽を大きすぎて実行したばかりで、音楽よりもスピーチをより重要にしたいオーディオトラックを単純に上げたり下げたりすることができます。
ここでの問題は、映画シーンやYouTubeビデオのような複雑な音響シーンから独立した音源を分離することです。音楽の演奏や爆発、バックグラウンドでその他のアンビエントサウンドのために、単に俳優を聞くことができない場合もあります。まあ、サウンドトラックのさまざまなカテゴリを正常に分離すると、他のすべての俳優を正しく聞くために音楽を少し断るなど、そのうちの1つだけを上げることもできます。これはまさに研究者が達成したことです。
あなたが撮ったたくさんの写真から3Dモデルまたは単に流動的なビデオを生成したいと想像してください。さて、それは今可能です!あまり配りたくありませんが、結果は驚くべきものであり、自分でチェックする必要があります!
左側のこのクールなティクトクの描画スタイルのように、写真のスタイルを撮って、それをあなたの選択の新しい写真に適用することを夢見たことはありますか?まあ、私はそうしました、そしてそれはかつてないほど容易になりました。実際、テキストのみからそれを達成することさえでき、この新しい方法とすべての人が利用できるGoogle Colabノートブックで今すぐ試すことができます(参考文献を参照)。コピーしたいスタイルの写真を撮り、生成するテキストを入力するだけで、このアルゴリズムは新しい画像を生成します!上記の結果を振り返ってください、このような大きな前進!結果は非常に印象的です。特に、単一のテキストで作られたと考える場合は、非常に印象的です。
本当に気に入った画像を持っていて、左の下のこの画像のように見える小さなバージョンを見つけることができたことがありますか?この画像を取り、2回見えるようにすることができれば、どれほどクールでしょうか?それは素晴らしいことですが、もしあなたがそれを4〜8倍の高解像度にすることができたらどうでしょうか?今、私たちは話している、それを見てください。
ここでは、画像の解像度を4倍に強化しました。つまり、詳細のために4倍の高さと幅のピクセルがあり、よりスムーズに見えるようにします。最良のことは、これが完全に自動的に数秒以内に行われ、ほとんどすべての画像で動作することです。ああ、そしてあなたは彼らが利用できるデモで自分でそれを使用することさえできます...
クイックドラフトから機能を制御すると、画像の残りの部分を同じように保持するもののみを編集します! Nvidia、MIT、およびUOFTによるGANSに基づくスケッチモデルからのSOTA画像編集。
このモデルはCitynerfと呼ばれ、以前にチャンネルで取り上げたNERFから成長します。 NERFは、Radianceフィールドと機械学習を使用して3Dモデルを画像から構築する最初のモデルの1つです。しかし、Nerfはそれほど効率的ではなく、単一のスケールで機能します。ここでは、CityNerfは衛星画像と地上レベルの画像に同時に適用され、あらゆる視点に対してさまざまな3Dモデルスケールを生成します。簡単に言えば、彼らはcityスケールにnerfをもたらします。しかし、どうですか?
AIがGANを使用して他の画像から画像を生成するのを見てきました。次に、テキストを使用して疑わしい画像を生成できるモデルがありました。 2021年初頭、Dall-Eが公開され、画像をガイドとしてリンクするモデルであるClipを使用して、テキスト入力から画像を生成しようとする以前のすべての試みを破りました。画像キャプションと呼ばれる非常によく似たタスクは、非常に単純に聞こえるかもしれませんが、実際には複雑です。画像の自然な説明を生成するのは、機械の能力です。画像に表示されているオブジェクトに単純にタグを付けるのは簡単ですが、単一の2次元画像で何が起こっているのかを理解することはまったく別の課題です。この新しいモデルは非常にうまく機能します...
もっと多くの論文を読み、より広いビューを持ちたい場合は、2020年:2020年をカバーするもう1つの素晴らしいリポジトリをご紹介します。 -2022のAIで新しい出版物を使用してください!
Twitter @whats_aiまたはLinkedIn @louis(What's AI)Bouchardでリストを共有するとタグを付けてください!
[1] A. Ramesh et al。、Zero-Shot Text-to-Image Generation、2021。Arxiv:2102.12092
[2] Lewis、Kathleen M et al。、(2021)、Vogue:Try-On by Stylegan補間最適化。
[3]高解像度の画像合成のためのタミング変圧器、Esser et al。、2020。
[4] AI、Booch et al。、(2020)、https://arxiv.org/abs/2010.06002で速くゆっくりと考える。
[5] Odei Garcia-Garin et al。、空中画像における浮遊海洋マクロリッターの自動検出と定量化:R、環境汚染、https://doi.org/のWebアプリケーションに関連する新しいディープラーニングアプローチの導入10.1016/j.envpol.2021.116490。
[6] Rematas、K.、Martin-Brualla、R。、およびFerrari、V。、「Sharf:単一の景色からの形状の輝きフィールド」、(2021)、https://arxiv.org/abs/2102.0886060
[7]ドリュー・A・ハドソンとC.ローレンス・ジトニック、生成的敵対的な変圧器、(2021)
[8] Sandra Bryant et al。、「人工知能に出会い系プロファイルを作成するように依頼しました。スワイプしますか?」(2021)、UNSWシドニーブログ。
[9] Liu、Z。et al。、2021、「Swin Transformer:Shifted Windowsを使用した階層ビジョントランス」、Arxiv Preprint https://arxiv.org/abs/2103.14030v1
[10] Zhang、Y.、Chen、W.、Ling、H.、Gao、J.、Zhang、Y.、Torralba、A。and Fidler、S.、2020。画像ガンは逆のグラフィックスの微分可能なレンダリングを満たし、解釈可能3Dニューラルレンダリング。 arxiv preprint arxiv:2010.09125。
[11] Yuille、Al、and Liu、C.、2021。DeepNets:彼らはこれまでにビジョンのために何をしたことがありますか? International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.
[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.
[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.
[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.
[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.
[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.
[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.
[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021。
[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.
[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos
[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.
[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).
[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 、 http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.
[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.
[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.
[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.
[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).
[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.
[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.
[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734