best_AI_papers_2021ダウンロードbest_AI_papers_2021ソースコードダウンロード

2021：驚くべきAI論文でいっぱいの年 - レビュー？

明確なビデオ説明、より詳細な記事へのリンク、およびコードを使用して、リリース日ごとにAIの最新のブレークスルーのキュレーションリスト。

世界はまだ回復していますが、特に人工知能の分野では、研究が熱狂的なペースを遅くしていません。さらに、倫理的側面、重要なバイアス、ガバナンス、透明性など、多くの重要な側面が今年強調されました。人工知能と人間の脳の理解とAIへのリンクは絶えず進化しており、近い将来の私たちの生活の質を改善する有望なアプリケーションを示しています。それでも、どのテクノロジーを適用するかに注意する必要があります。

「科学は私たちがすべきことを教えてくれません。私たちにできることだけです。」
- ジャン・ポール・サルトル、存在、そして何も

あなたがそれらのいずれかを逃した場合に備えて、今年の最も興味深い研究論文は次のとおりです。要するに、AIの最新のブレークスルーのキュレーションされたリストと、明確なビデオ説明、より詳細な記事へのリンク、およびコード（該当する場合）を使用して、リリース日ごとのデータサイエンスのリストです。読んでください！

各論文への完全な参照は、このリポジトリの最後にリストされています。このリポジトリを主演して、最新の状態を保ちましょう！ショ和

メンテナー：louisfb01

私のニュースレターを購読する - 毎週説明されているAIの最新のアップデート。

このリポジトリに追加するために見逃したかもしれない興味深い論文を私にメッセージを送ってください。

Twitter @whats_aiまたはLinkedIn @louis（What's AI）Bouchardでリストを共有するとタグを付けてください！

15分で完全な2021年の巻き戻しをご覧ください

コンピュータービジョンの研究に興味がある場合は、ここに別の素晴らしいリポジトリがあります。

明確なビデオ説明、より詳細な記事へのリンク、およびコードを備えた2021年のトップ10のCV出版物のキュレーションリスト。

2021年のトップ10のコンピュータービジョンペーパー

？私の仕事をサポートし、W＆B（無料で）を使用してML実験を追跡し、仕事を再現できるか、チームと協力したい場合は、このガイドに従って試してみることができます。ここのコードのほとんどはPytorchベースであるため、PytorchでW＆Bを使用するためのクイックスタートガイドは共有するのが最も興味深いと考えました。

このクイックガイドに従って、コードまたは下のレポスの同じW＆Bラインを使用して、すべての実験をW＆Bアカウントで自動的に追跡します！セットアップに5分以上かかることはなく、私のためにあなたの人生を変えるでしょう！これは、興味があればハイパーパラメータースイープを使用するためのより高度なガイドです:)

？このリポジトリと私が行ってきた仕事を後援してくれたWeight＆Biaseに感謝します。また、このリンクを使用してW＆Bを試してみてください！

完全なリスト

Dall・E：Openaiからのゼロショットテキストから画像の生成[1]
Vogue：Try-On by Stylegan補間最適化[2]
高解像度画像合成のためのタミングトランス[3]
AIで速くて遅く思う[4]
空中画像におけるフローティングマリンマクロリッターの自動検出と定量化[5]
Sharf：単一のビューからの形状条件付き放射磁場[6]
生成的敵対的な変圧器[7]
人工知能に、デートプロファイルを作成するように依頼しました。スワイプしますか？ [8]
Swin Transformer：シフトウィンドウを使用した階層ビジョントランス
画像ガンは、逆グラフィックスと解釈可能な3Dニューラルレンダリングのための微分可能なレンダリングを満たしています[10]
ディープネット：彼らは今までビジョンのために何をしたことがありますか？ [11]
無限の自然：単一の画像からの自然なシーンの永続的なビュー生成[12]
深い学習ベースの指制御を備えた、ポータブル、自己完結型の神経プロステティックハンド[13]
トータルリライト：バックグラウンド交換のための再生ポートレートを学ぶ[14]
LASR：単眼ビデオからの明確な形状再構築を学ぶ[15]
フォトリアリズムの強化[16]
defakehop：軽量の高性能ディープファーク検出器[17]
リアルタイムの高解像度フォトリアリックな画像翻訳：ラプラシアンピラミッド翻訳ネットワーク[18]
理髪店：セグメンテーションマスクを使用したGANベースの画像コンポジット[19]
TextStyleBrush：単一の例からのテキスト美学の転送[20]
オイラーのモーションフィールドで写真をアニメーション化する[21]
CVPR 2021 Best Paper Award：Giraffe-制御可能な画像生成[22]
Github Copilot＆Codex：コードで訓練された大規模な言語モデルの評価[23]
Apple：プライベートオンデバイスの機械学習を通じて写真の人々を認識する[24]
確率的微分方程式による画像の合成と編集[25]
あなた自身のガンをスケッチします[26]
テスラのオートパイロットが説明した[27]
StyleClip：Stylegan画像のテキスト駆動型操作[28]
タイムレンズ：イベントベースのビデオフレーム補間[29]
可能になった単一のビデオからの多様な世代[30]
レーダーの深い生成モデルを使用した熟練した降水制度[31]
カクテルフォークの問題：実際のサウンドトラックのための3つの茎のオーディオ分離[32]
養子縁組：近似微分可能な1ピクセルポイントレンダリング[33]
（スタイル）Clipdraw：テキストから描画の合成におけるカップリングコンテンツとスタイル[34]
スウィニール：スウィントランスを使用した画像修復[35]
Editgan：高精度セマンティック画像編集[36]
Citynerf：都市規模でnerfを構築[37]
クリップキャップ：画像キャプションのクリッププレフィックス[38]
紙の参照

Dall・E：Openaiからのゼロショットテキストから画像の生成[1]

Openaiは、テキストキャプションから画像を生成できるネットワークを正常にトレーニングしました。 GPT-3およびImage GPTに非常に似ており、驚くべき結果を生み出します。

短いビデオ説明：
短い読み取り：OpenaiのDall・E：テキストからイメージの生成が説明されています
論文：ゼロショットテキストから画像の生成
コード：Dall・Eに使用される離散vaeのコードと詳細情報

Vogue：Try-On by Stylegan補間最適化[2]

Googleは修正されたStyleGan2アーキテクチャを使用して、自分の画像のみを使用して必要なズボンやシャツを自動的に試してみることができるオンラインフィッティングルームを作成しました。

短いビデオ説明：
短い読み取り：AI搭載のオンラインフィッティングルーム：Vogue
論文：Vogue：Stylegan補間の最適化による試用

高解像度画像合成のためのタミングトランス[3]

TL; DR：それらは、ガンの効率と畳み込みアプローチと変圧器の表現力を組み合わせて、意味的に誘導された高品質の画像合成のための強力で時間効率の良い方法を生成しました。

短いビデオ説明：
短い読み取り：トランスの表現力と高解像度の画像合成のためのCNNS効率を組み合わせる
紙：高解像度の画像合成のためのタミングトランス
コード：タミングトランス

AIで速くて遅く思う[4]

人間の能力から、AIの研究コミュニティにとってより一般的で信頼できるAIと10の質問へのインスピレーションを引き出します。

短いビデオ説明：
短い読み取り：ai |の第三波速くてゆっくりと考えています
論文：AIで速くゆっくりと考えています

空中画像におけるフローティングマリンマクロリッターの自動検出と定量化[5]

Odei Garcia-Garin et al。バルセロナ大学から、航空画像から浮遊ゴミを検出して定量化できる深い学習ベースのアルゴリズムを開発しました。また、海面の画像内で、フローティングマリンマクロリッターまたはFMMLと呼ばれるこれらのガベージをユーザーが識別できるようにするWeb指向のアプリケーションを作成しました。

短いビデオ説明：
短い読み取り：海のプラスチック廃棄物を検出して数えることができるAIソフトウェア
紙：空中画像におけるフローティングマリンマクロリッターの自動検出と定量化：RのWebアプリケーションに関連する新しいディープラーニングアプローチの導入、環境汚染
コードについてはここをクリックしてください

Sharf：単一のビューからの形状条件付き放射磁場[6]

オブジェクトの写真を撮り、3Dで作成している映画やビデオゲームに挿入して、イラストの3Dシーンに挿入することがどれほどクールか想像してみてください。

短いビデオ説明：
短い読み：Sharf：実際のオブジェクトから写真を撮り、3Dモデルを作成します
紙：Sharf：単一のビューからの形状条件付き放射輝度フィールド
コードについてはここをクリックしてください

生成的敵対的な変圧器[7]

彼らは基本的に、強力なStyleGan2アーキテクチャでトランスの注意メカニズムを活用して、それをさらに強力にします！

短いビデオ説明：
短い読み取り：Gansformers：生成的な敵対的な変圧器を備えたシーン生成
論文：生成官能的な変圧器
コードについてはここをクリックしてください

私の毎週のニュースレターを購読し、2022年にAIの新しい出版物を最新の状態に保ちましょう！

人工知能に、デートプロファイルを作成するように依頼しました。スワイプしますか？ [8]

AIプロファイルを右にスワイプしますか？実際の人間を機械と区別できますか？これは、この研究が出会い系アプリでAIメイドの人々を使用して明らかにすることです。

短いビデオ説明：
短い読み取り：AIプロファイルを右にスワイプしますか？
論文：私たちは人工知能に出会い系プロファイルを作成するように依頼しました。スワイプしますか？
コードについてはここをクリックしてください

Swin Transformer：シフトウィンドウを使用した階層ビジョントランス

トランスはコンピュータービジョンにCNNを置き換えますか？ 5分も経たないうちに、The Swin Transformerと呼ばれる新しい論文を使用して、変圧器アーキテクチャをコンピュータービジョンにどのように適用できるかがわかります。

短いビデオ説明：
短い読み取り：変圧器はコンピュータービジョンでCNNを置き換えますか？
紙：SWINトランス：シフトウィンドウを使用した階層ビジョントランス
コードについてはここをクリックしてください

画像ガンは、逆グラフィックスと解釈可能な3Dニューラルレンダリングのための微分可能なレンダリングを満たしています[10]

Ganverse3Dと呼ばれるこの有望なモデルは、カスタマイズおよびアニメーション化できる3Dフィギュアを作成するための画像のみが必要です！

短いビデオ説明：
短い読み取り：画像から3Dモデルを作成します！ Ganverse3D＆Nvidia Omniverse
論文：画像ガンは、逆グラフィックスと解釈可能な3Dニューラルレンダリングのための微分可能なレンダリングを満たしています

ディープネット：彼らは今までビジョンのために何をしたことがありますか？ [11]

「私は、ビジョンアプリケーションのディープネット、それらの成功、そして私たちが対処しなければならない制限について、すべてを公然と共有します。」

短いビデオ説明：
短い読み取り：コンピュータービジョンにおけるAIの状態は何ですか？
論文：ディープネット：彼らは今までビジョンのために何をしたことがありますか？

無限の自然：単一の画像からの自然なシーンの永続的なビュー生成[12]

ビュー合成の次のステップ：永続的なビュー生成。目標は、イメージを取り入れて風景を探索することです。

短いビデオ説明：
短い読み：無限の自然：画像に飛び込んで風景を探ります
紙：無限の自然：単一の画像からの自然なシーンの永続的なビュー生成
コードについてはここをクリックしてください
コラブデモ

深い学習ベースの指制御を備えた、ポータブル、自己完結型の神経プロステティックハンド[13]

このAIを搭載した神経界面では、切断者は生命のような器用さと直感性を備えた神経生産の手を制御できます。

短いビデオ説明：
短い読み取り：AIを搭載した手を持つ切断者！？
論文：深い学習ベースの指制御を備えた、ポータブル、自己完結型の神経形質の手

トータルリライト：バックグラウンド交換のための再生ポートレートを学ぶ[14]

追加する新しい背景の照明に基づいて、すべてのポートレートを適切に再定住させます。写真の背景を変えたいと思ったことはありませんが、現実的に見えますか？あなたがすでにそれを試したなら、あなたはそれが単純ではないことをすでに知っています。自分の家で自分の写真を撮って、ビーチの背景を変えることはできません。見た目が悪く、現実的ではありません。誰もがちょうど「それはフォトショップされている」と言うだけです。映画やプロのビデオには、高品質の画像を再現するための完璧な照明とアーティストが必要であり、それは非常に高価です。自分の写真でそれを行う方法はありません。それともできますか？

短いビデオ説明：
短い読み取り：さまざまな背景に現実的な照明
論文：合計再生：バックグラウンド交換のための再生ポートレートを学ぶ

LASR：単眼ビデオからの明確な形状再構築を学ぶ[15]

入力として短いビデオのみから移動する人間または動物の3Dモデルを生成します。これは、入力として短いビデオのみから移動する人間または動物の3Dモデルを生成するための新しい方法です。確かに、これは奇妙な形であり、動くことができるということを実際に理解していますが、これはまだ多くのオブジェクトではなく、まだ1つの「オブジェクト」であるため、まだ添付されたままにする必要があります...

短いビデオ説明：
短い読み取り：ビデオからの明確な3D再構成
論文：LASR：単眼のビデオからの明確な形状の再構築を学ぶ
コードについてはここをクリックしてください

フォトリアリズムの強化[16]

このAIはビデオゲームにライブで適用し、すべてのフレームをより自然に見えるように変換できます。 Intel Labsの研究者は、Enhing Photorealism Enhancementと呼ばれるこの論文を公開しました。そして、これが「ちょうど別のガン」であると思うなら、ビデオゲームの写真を入力として撮影し、自然界のスタイルに従ってそれを変更してください。彼らはこのモデルに2年間取り組み、非常に堅牢にしました。ビデオゲームにライブで適用し、すべてのフレームをより自然に見えるように変換できます。ゲームのグラフィックにはるかに少ない労力をかける可能性を想像してください。

短いビデオ説明：
短い読み：AIはビデオゲームのデザインの未来ですか？フォトリアリズムの強化
論文：フォトリアリズムの強化
コードについてはここをクリックしてください

defakehop：軽量の高性能ディープファーク検出器[17]

2021年に深い偽物を見つける方法。人工知能を使用してディープフェイクを見つける米国陸軍技術の突破。

彼らはいつもそこにいたように見えますが、最初の現実的なディープファークは2017年まで登場しませんでした。それは、史上初の偽の画像から、自動的に生成されたビデオで自動的に生成されたものから、サウンドで誰かの同じコピーに自動的に生成されました。

現実には、実際のビデオや写真とディープファークの違いはもう見えません。どうすればそうでないかをどのように伝えることができますか？ AIがそれらを完全に生成できる場合、オーディオファイルまたはビデオファイルを証明として法廷でどのように使用できますか？さて、この新しい論文はこれらの質問に対する答えを提供するかもしれません。そして、ここでの答えは、再び人工知能の使用かもしれません。「私はそれを見るとき、私はそれを信じる」ということわざはすぐに「私はそれを信じるように私に言うとき、私はそれを信じるでしょう…」

短いビデオ説明：
短い読み取り：深い偽物を見つける方法。画期的な米陸軍技術（2021）
紙：defakehop：軽量の高性能ディープファーク検出器

リアルタイムの高解像度フォトリアリックな画像翻訳：ラプラシアンピラミッド翻訳ネットワーク[18]

この新しい機械学習ベースのアプローチを使用して、あらゆるスタイルを4K画像にリアルタイムで適用してください！

短いビデオ説明：
短い読み取り：リアルタイムでの高解像度のフォトリアリックな画像翻訳
論文：リアルタイムの高解像度の光リアリスティックな画像翻訳：ラプラシアンピラミッド翻訳ネットワーク
コードについてはここをクリックしてください

理髪店：セグメンテーションマスクを使用したGANベースの画像コンポジット[19]

この記事は、それ自体が新しいテクノロジーに関するものではありません。代わりに、それはGANの新しくエキサイティングなアプリケーションについてです。確かに、あなたはタイトルを見ました、そしてそれはクリックベイトではありませんでした。このAIは、変化にコミットする前に、髪を転送してそれがどのように見えるかを確認できます…

短いビデオ説明：
短い読み物：理髪店：写真からさまざまな髪型と髪の色を試してみてください（ガン）
紙：理髪店：セグメンテーションマスクを使用したGANベースの画像コンポジット
コードについてはここをクリックしてください

TextStyleBrush：単一の例からのテキスト美学の転送[20]

この新しいFacebook AIモデルは、同じスタイルに従って、自分の言語で画像でテキストを直接翻訳または編集できます。

あなたが言語を話さない別の国で休暇中にいると想像してください。あなたは地元のレストランを試してみたいのですが、彼らのメニューはあなたが話さない言語です。私たちのほとんどがメニュー項目や道順を見ても、何が書かれているかを理解できないかどうかにかかわらず、私たちのほとんどがすでにこの状況に直面しているので、これはそれほど難しくないと思います。さて、2020年には、携帯電話を取り出し、Googleが表示されているものを翻訳します。 2021年には、Google翻訳を開く必要さえありません。翻訳するために1つずつ見えるものを書く必要さえありません。代わりに、Facebook AIでこの新しいモデルを使用して、自分の言語で画像内のすべてのテキストを翻訳するだけです…

短いビデオ説明：
短い読み取り：スタイルをエミュレートする画像からテキストを翻訳または編集：TextStyleBrush
論文：TextStyleBrush：単一の例からのテキスト美学の転送
コードについてはここをクリックしてください

研究論文をもっと読みたい場合は、より多くの研究論文を見つけて読むための最善のヒントを共有する私の記事を読むことをお勧めします。

オイラーのモーションフィールドで写真をアニメーション化する[21]

このモデルは写真を撮り、どの粒子が動いているのかを理解し、現実的にそれらを無限のループでアニメーション化しながら、このような驚くほど見えるビデオを完全に作成している写真の残りの部分を保存します...

短いビデオ説明：
短い読み取り：写真からリアルなアニメーションループビデオを作成します
紙：オイラーのモーションフィールドで写真をアニメーション化します
コードについてはここをクリックしてください

CVPR 2021 Best Paper Award：Giraffe-制御可能な画像生成[22]

変更されたGanアーキテクチャを使用して、背景や他のオブジェクトに影響を与えることなく、画像内のオブジェクトを移動できます！

短いビデオ説明：
ショートリード：CVPR 2021ベストペーパー賞：キリン - コントロール可能な画像生成
論文：キリン：シーンを構成的生成神経特徴フィールドとして表す
コードについてはここをクリックしてください

Github Copilot＆Codex：コードで訓練された大規模な言語モデルの評価[23]

Openaiのこの新しいモデルが単語からコードを生成する方法をご覧ください！

短いビデオ説明：
短い読み取り：Openaiの新しいコードジェネレーター：Github Copilot（およびCodex）
論文：コードでトレーニングされた大規模な言語モデルの評価
コードについてはここをクリックしてください

Apple：プライベートオンデバイスの機械学習を通じて写真の人々を認識する[24]

Appleを使用すると、IOS 15で画像やビデオを正確にキュレートおよび整理することができます。

短いビデオ説明：
短い読み物：機械学習を使用してプライベート写真でAppleの写真が人々をどのように認識するか
論文：プライベート上の機械学習を通じて写真の人々を認識する

確率的微分方程式による画像の合成と編集[25]

画像生成のための複雑なガンとトランスのアーキテクチャに別れを告げてください！ Chenling Meng et alによるこの新しい方法。スタンフォード大学とカーネギーメロン大学から、ユーザーベースの入力から新しい画像を生成できます。芸術的なスキルをゼロの私のような人々でさえ、クイックスケッチから美しい画像や修正を生み出すことができます...

短いビデオ説明：
短い読み取り：スケッチからの画像の合成と編集：sdedit。これ以上退屈なトレーニングは必要ありません！
論文：確率的微分方程式による画像の合成と編集
コードについてはここをクリックしてください
コラブデモ

あなた自身のガンをスケッチします[26]

スケッチに続いて画像を生成することにより、すべての人がGANSトレーニングを容易にします！確かに、この新しい方法では、あなたがそれを提供できる最も単純なタイプの知識、つまり手描きのスケッチに基づいてあなたのGanの出力を制御できます。

短いビデオ説明：
短い読み：すべての人がgansトレーニングを簡単にする：スケッチに続く画像を生成する
論文：独自のガンをスケッチしてください
コードについてはここをクリックしてください

テスラのオートパイロットが説明した[27]

テスラの車が他の車両と一緒に道路を見るだけでなくナビゲートできるのか疑問に思うなら、これはあなたが待ち望んでいたビデオです。数日前は、テスラのAIのディレクターであるAndrej Karpathyなどが、Teslaのオートパイロットが8つのカメラを介して道路のナビゲーションプロセスにどのように機能するかを提示した最初のテスラAIの日でした。

短いビデオ説明：
短い読み取り：テスラのオートパイロットが説明しました

StyleClip：Stylegan画像のテキスト駆動型操作[28]

AIは画像を生成し、多くの脳力と試行錯誤を使用して、研究者は特定のスタイルに続いて結果を制御できます。今、この新しいモデルを使用すると、テキストのみを使用してそれを行うことができます！

短いビデオ説明：
短い読み取り：本物の画像をテキストで操作 - クリエイティブアーティストのためのAI！ StyleClipは説明しました
紙：StyleClip：The StyleGan画像のテキスト駆動型の操作。
コードについてはここをクリックしてください
コラブデモ

タイムレンズ：イベントベースのビデオフレーム補間[29]

タイムレンは、ビデオのフレームの間の粒子の動きを理解して、目でも見えない速度で実際に起こったことを再構築することができます。実際、それは私たちのインテリジェントな携帯電話と他のモデルが以前に到達できなかった結果を達成しています！

短いビデオ説明：
短い読み取り：AIでスローモーションビデオの作成方法！
論文：タイムレンズ：イベントベースのビデオフレーム補間
コードについてはここをクリックしてください

私の毎週のニュースレターを購読し、2022年にAIの新しい出版物を最新の状態に保ちましょう！

可能になった単一のビデオからの多様な世代[30]

ビデオを編集したかったことはありますか？

誰かを削除または追加するか、背景を変更したり、少し長くしたりするか、解像度を変更して特定のアスペクト比に適合して圧縮したり伸ばしたりせずに変更します。すでに広告キャンペーンを実行している人にとっては、ABテスト用の動画のバリエーションを持ち、最適なものを確認したいと思います。さて、Niv Haim et alによるこの新しい研究。 1つのビデオとHDでこれらすべてを行うのに役立ちます！

実際、簡単なビデオを使用して、高品質のビデオで数分または数分で言及したタスクを実行できます。基本的に、念頭に置いているビデオ操作またはビデオ生成アプリケーションに使用できます。それはあらゆる点でガンを上回ることさえ、深い学習の派手な研究を使用したり、巨大で非実用的なデータセットを必要としたりしません！そして、最良のことは、この手法が高解像度のビデオに拡張可能であることです。

短いビデオ説明：
短い読み取り：ビデオのバリエーションを生成 - データセットやディープラーニングは必要ありません！
論文：可能になった単一のビデオからの多様な世代
コードについてはここをクリックしてください

レーダーの深い生成モデルを使用した熟練した降水制度[31]

DeepMindは、50人以上の専門家気象学者によって評価された精度と有用性のために、状況の89％で広く使用されているNowcasting Methodを上回ることができる生成モデルをリリースしました！彼らのモデルは、今後2時間で沈殿を予測することに焦点を当てており、それを驚くほどうまく達成しています。これは生成モデルです。つまり、単に予測するのではなく、予測を生成することを意味します。基本的に、過去のレーダーデータを使用して、将来のレーダーデータを作成します。したがって、過去の時間と空間コンポーネントの両方を使用して、近い将来に見えるものを生成できます。

これは、Snapchatフィルターと同じと同じと見なすことができ、顔を取り、変更を加えた新しい顔を生成します。このような生成モデルを訓練するには、人間の顔と生成したい顔の両方からのデータの束が必要です。次に、何時間も訓練された非常に類似したモデルを使用して、強力な生成モデルができます。この種のモデルは、多くの場合、GANSアーキテクチャをトレーニング目的で使用し、発電機モデルを個別に使用します。

短いビデオ説明：
短い読み取り：DeepMindはAIを使用して、より正確な天気予報を予測します
紙：レーダーの深い生成モデルを使用した巧みな降水速度
コードについてはここをクリックしてください

カクテルフォークの問題：実際のサウンドトラックのための3つの茎のオーディオ分離[32]

ビデオやテレビ番組に耳を傾けたことがありますが、俳優は完全に聞こえませんでしたか、それとも音楽が大きすぎましたか？まあ、カクテルパーティーの問題とも呼ばれるこの問題は、二度と起こらないかもしれません。三菱とインディアナ大学は、新しいモデルと、適切なサウンドトラックを特定するこのタスクに取り組む新しいデータセットを公開しました。たとえば、同じオーディオクリップを撮影した場合、音楽を大きすぎて実行したばかりで、音楽よりもスピーチをより重要にしたいオーディオトラックを単純に上げたり下げたりすることができます。

ここでの問題は、映画シーンやYouTubeビデオのような複雑な音響シーンから独立した音源を分離することです。音楽の演奏や爆発、バックグラウンドでその他のアンビエントサウンドのために、単に俳優を聞くことができない場合もあります。まあ、サウンドトラックのさまざまなカテゴリを正常に分離すると、他のすべての俳優を正しく聞くために音楽を少し断るなど、そのうちの1つだけを上げることもできます。これはまさに研究者が達成したことです。

短いビデオ説明：
短い読み取り：AIで声、音楽、音響効果を分離します
論文：カクテルフォークの問題：実際のサウンドトラックのための3つの茎のオーディオ分離
コードについてはここをクリックしてください

養子縁組：近似微分可能な1ピクセルポイントレンダリング[33]

あなたが撮ったたくさんの写真から3Dモデルまたは単に流動的なビデオを生成したいと想像してください。さて、それは今可能です！あまり配りたくありませんが、結果は驚くべきものであり、自分でチェックする必要があります！

短いビデオ説明：
短い読み取り：AIは、いくつかの画像からスムーズなビデオを合成します！
論文：採用：近似微分可能な1ピクセルポイントレンダリング
コードについてはここをクリックしてください

（スタイル）Clipdraw：テキストから描画の合成におけるカップリングコンテンツとスタイル[34]

左側のこのクールなティクトクの描画スタイルのように、写真のスタイルを撮って、それをあなたの選択の新しい写真に適用することを夢見たことはありますか？まあ、私はそうしました、そしてそれはかつてないほど容易になりました。実際、テキストのみからそれを達成することさえでき、この新しい方法とすべての人が利用できるGoogle Colabノートブックで今すぐ試すことができます（参考文献を参照）。コピーしたいスタイルの写真を撮り、生成するテキストを入力するだけで、このアルゴリズムは新しい画像を生成します！上記の結果を振り返ってください、このような大きな前進！結果は非常に印象的です。特に、単一のテキストで作られたと考える場合は、非常に印象的です。

短いビデオ説明：
短い読み取り：芸術的コントロールを備えたテキストから描画への合成| ClipDraw＆StyleClipdraw
Paper（Clipdraw）：Clipdraw：言語イメージエンコーダーを介したテキストから描画への合成の探索
Paper（StyleClipdraw）：StyleClipDraw：テキストから描画の合成におけるカップリングコンテンツとスタイル
Clipdraw Colabデモ
StyleClipDraw Colabデモ

スウィニール：スウィントランスを使用した画像修復[35]

本当に気に入った画像を持っていて、左の下のこの画像のように見える小さなバージョンを見つけることができたことがありますか？この画像を取り、2回見えるようにすることができれば、どれほどクールでしょうか？それは素晴らしいことですが、もしあなたがそれを4〜8倍の高解像度にすることができたらどうでしょうか？今、私たちは話している、それを見てください。

ここでは、画像の解像度を4倍に強化しました。つまり、詳細のために4倍の高さと幅のピクセルがあり、よりスムーズに見えるようにします。最良のことは、これが完全に自動的に数秒以内に行われ、ほとんどすべての画像で動作することです。ああ、そしてあなたは彼らが利用できるデモで自分でそれを使用することさえできます...

短いビデオ説明：
短い読み取り：スウィニール：スウィントランスを使用した画像修復
紙：スウィニール：スウィントランスを使用した画像修復
コードについてはここをクリックしてください
デモ

Editgan：高精度セマンティック画像編集[36]

クイックドラフトから機能を制御すると、画像の残りの部分を同じように保持するもののみを編集します！ Nvidia、MIT、およびUOFTによるGANSに基づくスケッチモデルからのSOTA画像編集。

短いビデオ説明：
短い読み：nvidia editgan：スケッチからの完全なコントロールを備えた画像編集
論文：Editgan：高精度セマンティック画像編集
コードについてはここをクリックしてください（まもなくリリースされます）

Citynerf：都市規模でnerfを構築[37]

このモデルはCitynerfと呼ばれ、以前にチャンネルで取り上げたNERFから成長します。 NERFは、Radianceフィールドと機械学習を使用して3Dモデルを画像から構築する最初のモデルの1つです。しかし、Nerfはそれほど効率的ではなく、単一のスケールで機能します。ここでは、CityNerfは衛星画像と地上レベルの画像に同時に適用され、あらゆる視点に対してさまざまな3Dモデルスケールを生成します。簡単に言えば、彼らはcityスケールにnerfをもたらします。しかし、どうですか？

短いビデオ説明：
短い読み取り：CityNerf：都市規模での3Dモデリング！
論文：CityNerf：都市規模でnerfを建設します
コードについてはここをクリックしてください（まもなくリリースされます）

クリップキャップ：画像キャプションのクリッププレフィックス[38]

AIがGANを使用して他の画像から画像を生成するのを見てきました。次に、テキストを使用して疑わしい画像を生成できるモデルがありました。 2021年初頭、Dall-Eが公開され、画像をガイドとしてリンクするモデルであるClipを使用して、テキスト入力から画像を生成しようとする以前のすべての試みを破りました。画像キャプションと呼ばれる非常によく似たタスクは、非常に単純に聞こえるかもしれませんが、実際には複雑です。画像の自然な説明を生成するのは、機械の能力です。画像に表示されているオブジェクトに単純にタグを付けるのは簡単ですが、単一の2次元画像で何が起こっているのかを理解することはまったく別の課題です。この新しいモデルは非常にうまく機能します...

短いビデオ説明：
短い読み取り：新しいSOTA画像キャプション：Clipcap
論文：クリップキャップ：画像キャプションのクリッププレフィックス
コードについてはここをクリックしてください
Colabデモについては、ここをクリックしてください

もっと多くの論文を読み、より広いビューを持ちたい場合は、2020年：2020年をカバーするもう1つの素晴らしいリポジトリをご紹介します。 -2022のAIで新しい出版物を使用してください！

Twitter @whats_aiまたはLinkedIn @louis（What's AI）Bouchardでリストを共有するとタグを付けてください！

紙の参照

[1] A. Ramesh et al。、Zero-Shot Text-to-Image Generation、2021。Arxiv：2102.12092

[2] Lewis、Kathleen M et al。、（2021）、Vogue：Try-On by Stylegan補間最適化。

[3]高解像度の画像合成のためのタミング変圧器、Esser et al。、2020。

[4] AI、Booch et al。、（2020）、https：//arxiv.org/abs/2010.06002で速くゆっくりと考える。

[5] Odei Garcia-Garin et al。、空中画像における浮遊海洋マクロリッターの自動検出と定量化：R、環境汚染、https：//doi.org/のWebアプリケーションに関連する新しいディープラーニングアプローチの導入10.1016/j.envpol.2021.116490。

[6] Rematas、K.、Martin-Brualla、R。、およびFerrari、V。、「Sharf：単一の景色からの形状の輝きフィールド」、（2021）、https：//arxiv.org/abs/2102.0886060

[7]ドリュー・A・ハドソンとC.ローレンス・ジトニック、生成的敵対的な変圧器、（2021）

[8] Sandra Bryant et al。、「人工知能に出会い系プロファイルを作成するように依頼しました。スワイプしますか？」（2021）、UNSWシドニーブログ。

[9] Liu、Z。et al。、2021、「Swin Transformer：Shifted Windowsを使用した階層ビジョントランス」、Arxiv Preprint https://arxiv.org/abs/2103.14030v1

[10] Zhang、Y.、Chen、W.、Ling、H.、Gao、J.、Zhang、Y.、Torralba、A。and Fidler、S.、2020。画像ガンは逆のグラフィックスの微分可能なレンダリングを満たし、解釈可能3Dニューラルレンダリング。 arxiv preprint arxiv：2010.09125。

[11] Yuille、Al、and Liu、C.、2021。DeepNets：彼らはこれまでにビジョンのために何をしたことがありますか？ International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.

[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf

[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452

[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.

[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.

[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.

[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.

[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.

[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.

[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.

[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021。

[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.

[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.

[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos

[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.

[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).

[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M

[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249

[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 、 http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.

[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z

[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.

[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.

[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.

[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).

[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.

[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.

[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734

拡大する