「生成 AI」と呼ばれる全く新しい分野が誕生しても、この言葉が好きか嫌いかに関係なく、研究の熱狂的なペースは衰えることはなく、特に AI テクノロジーの導入が史上最大のブームとなっている業界で顕著です。人工知能と、人間の脳と AI とのつながりについての理解は常に進化しており、近い将来、私たちの生活の質を向上させる有望なアプリケーションが示されています。それでも、どのテクノロジーを適用するかを慎重に選択する必要があります。
「科学は私たちに何をすべきかを教えてくれるわけではなく、私たちができることだけを教えてくれるのです。」
- ジャン=ポール・サルトル『存在と無』
AI とデータ サイエンスの最新のブレークスルーをリリース日ごとに厳選したリストです。明確なビデオ説明、より詳細な記事へのリンク、およびコード (該当する場合) が付いています。読んで楽しんでください!
各論文への完全な参照は、このリポジトリの最後にリストされています。このリポジトリにスターを付けて最新情報を入手し、来年にご期待ください。 ️
メンテナー: louisfb01。AI についてもっと見たい/聞きたい場合は、YouTube やポッドキャスターとしても活動しています。
ニュースレターを購読してください - AI の最新アップデートを毎週説明します。
このリポジトリに追加できなかった興味深い論文があれば、お気軽にメッセージをください。
リストを共有する場合は、 Twitterで @Whats_AI またはLinkedIn で@Louis (What's AI) Bouchard とタグ付けしてください。そして、Learn AI Together の Discord コミュニティで私たちとチャットしましょう!
?私の作品をサポートしたい場合は、このリポジトリのスポンサーにチェックを入れるか、Patreon で私をサポートしてください。
昨年、画像とテキストの両方に対する生成 AI の台頭が見られ、最近では ChatGPT が登場しました。現在、2023 年の第 1 週以内に、研究者たちは VALL-E と呼ばれる音声データ用の新しいシステムをすでに作成しています。
VALL-E は、わずか 3 秒の録音で、これまでよりも高い類似性と発話の自然性で人の声を模倣することができます。 ChatGPT は人間のライターを模倣することができます。 VALL-E は音声に関しても同様です。
私たちは AI が画像を生成できることを知っています。では、編集してみましょう。
InstructPix2Pix と呼ばれるこの新しいモデルは、まさにそれを実現します。ユーザーが与えたテキストベースの指示に従って画像を編集します。これらの驚くべき結果を見てください…そしてそれは、OpenAI や無限の予算を備えた Google からのものではありません。
これは、ティム・ブルックスとカリフォルニア大学の共同研究者らによる最近の出版物です。 Alexei A. Efros 氏は、コンピュータ ビジョン業界では著名な人物です。ご覧のとおり、その結果は驚くべきものです。
先日、VALL-Eという人の声を真似できるモデルを取り上げました。 MusicLM と呼ばれるこの新しい AI を使って、クリエイティブな方向にさらに一歩進んでみましょう。 MusicLM を使用すると、テキストの説明から音楽を生成できます。
もう待たずに、すぐに結果を見てみましょう...聞いた内容はあなたを驚かせるでしょう!
Runway は、ビデオを撮影し、数秒でまったく異なるスタイルをそれに適用できる GEN-1 と呼ばれるシステムを作成しました。このモデルは進行中の作業であり、欠陥もありますが、それでも、画像やテキスト プロンプトからビデオに非常にクールなスタイルを転送できます。これは、数年、場合によっては数か月前には不可能だったものです。さらにすごいのはその仕組みです...
Google の最新の出版物である PaLM-E は、具体化されたマルチモーダル言語モデルと呼ばれるものです。これはどういう意味ですか?これは、先ほど述べた ViT モデルや PaLM モデルのテキストや画像など、さまざまな種類のデータを理解でき、これらの洞察をロボットハンドからのアクションに変えることができるモデルであることを意味します。
セグメンテーション - 写真の世界における探偵ごっこのようなものです。このスーパーパワーにより、物体から人物に至るまで、画像内のありとあらゆるものをピクセル完璧な精度で識別できます。これは、車であれ歩行者であれ、周囲で何が起こっているかを知る必要がある自動運転車など、あらゆる種類のアプリケーションにとって革新的な製品です。
プロンプトについてももうすでにご存知でしょう。しかし、プロンプト可能なセグメンテーションについて聞いたことがありますか?それはブロックの最新の子供であり、本当にクールです。この新しいトリックを利用すると、AI モデルに必要なものをセグメント化するよう促すことができます。つまり、何でもいいのです。 Meta の驚くべき新しい SAM (Segment Anything Model) のおかげで、できることには制限がありません。
プロンプト対応セグメンテーションと SAM モデルがどのように魔法のように機能するかについて興味がある場合は、私のビデオをお見逃しなく。この記事では、この驚くべき新技術が画像セグメンテーションに関してどのように変革をもたらしているかをすべて学びます。それでは、座ってリラックスして、SAM を使用したプロンプトセグメンテーションの世界への旅にご案内しましょう。信じてください、後悔はしませんよ!
家から出たり写真を撮ったりすることなく、素晴らしい Instagram 画像を作成できることを想像してみてください。 NVIDIA の新しい AI モデルである Perfusion は、コンセプトベースのビジュアルの制御と忠実度を強化して、テキストから画像への生成を進化させます。
Perfusion は既存の AI 技術を大幅に改善し、元のコンテンツに忠実な画像を生成する際の制限を克服します。このモデルは、さまざまな新しいシナリオでこれらの「コンセプト」を正確に作成できます。
Perfusion は、新しい画像内の複数の「概念」を同時にロックして生成するための追加メカニズムを備えた Stable Diffusion に基づいて構築されています。これにより、比類のない定量的および定性的パフォーマンスが得られ、さまざまな業界に刺激的な可能性が開かれます。
?完璧ではありませんが、Perfusion はテキストから画像へのモデルにとって重要な前進です。課題としては、オブジェクトのアイデンティティの維持や過度の一般化のほか、迅速なエンジニアリング作業が必要になることが挙げられます。
NVIDIA の Perfusion は、私たちの欲求に合わせて AI が生成した画像のエキサイティングな未来の舞台を設定します。
Drag Your Gan は、画像生成やテキスト操作よりも正確なオブジェクトのドラッグを優先します。 AI は画像全体を現実的に適応させ、オブジェクトの位置、ポーズ、形状、表情、その他のフレーム要素を変更します。
??犬の表情を編集したり、犬を座らせたり、人間のポーズを調整したり、風景をシームレスに変更したりすることもできます。 Drag Your Gan は、画像編集を試すための革新的でインタラクティブな方法を提供します。
どのように機能するのでしょうか? Drag Your Gan は、NVIDIA による最先端の GAN アーキテクチャである StyleGAN2 を活用しています。特徴空間 (潜在コード) で動作することにより、AI は一連のステップと損失計算を通じて画像を適切に編集する方法を学習します。
以下に示すように、結果は素晴らしいものですが、Drag Your Gan には、現時点では生成された画像しか編集できないなど、いくつかの制限があることに注意することが重要です。画像は配布物の一部です。その他の制限として、ポイントの選択はピクセルの色とコントラストに基づいているため、実際には何もドラッグできないことが挙げられます。赤い車の一部を取り出して、赤い車に乗ったまま動かしても、動かしたことをまったく理解できないかもしれません。
試してみるのが待ちきれませんか?著者らは、コードは 6 月に利用可能になるはずだと述べています。 DragYourGan を使用したこの新しい画像操作スタイルについて詳しくは、ビデオ (または記事) をご覧ください。
この分野の専門家とのインタビュー形式のその他の AI コンテンツについては、What's AI ポッドキャストをチェックしてください。招待された AI 専門家と私は、AI に関連する特定のトピック、サブ分野、役割について取り上げ、AI の収集に熱心に取り組んだ人々からの知識を教え、共有します。
Neuralangelo は、画像から 3D AI への NVIDIA の最新のブレークスルーです。この新しいアプローチは、Instant NeRF に基づいて構築されており、表面品質を向上させ、シンプルな画像から非常にリアルな 3D シーンをわずか数秒で提供します。
Neuralangelo は、AI で生成された 3D モデルの詳細な構造の欠如ややや漫画的な外観など、前身である Instant NeRF の制限を克服することを目指しています。
Neuralangelo の改善の背後にある秘密は 2 つの重要な違いにあります。1 つは高次導関数の計算に数値勾配を使用すること、もう 1 つは詳細レベルを制御するハッシュ グリッドでの粗い最適化から細かい最適化の採用です。これについてはビデオで詳しく説明します。
この最適化プロセスにより、3D モデル再構築の入力がよりスムーズになり、より多くの情報をブレンドできるようになり、現実的な結果を得るために一貫性と詳細の完璧なバランスが作成されます。
Neuralangelo の 3D モデルの品質は本当に驚くべきものですが、AI は反射率の高いシーンで課題に直面しています。それにもかかわらず、その潜在的な現実世界への応用は広大でエキサイティングです。
今週のエピソードでは、CVPR 2023 カンファレンスで発表された TryOnDiffusion と呼ばれる新しい研究を調査することにしました。この革新的なアプローチは、現実的な仮想試着体験における大きな進歩を表しています。 TryOnDiffusion は、入力画像を理解し、衣服と人物を区別し、情報をインテリジェントに組み合わせるように AI モデルをトレーニングすることにより、完璧な仮想試着という最終目標に近づける印象的な結果を生み出します。
AI とファッションの交差点に興味がある方は、TryOnDiffusion の内部構造とオンライン ショッピングの将来に対する潜在的な影響を解き明かすのに参加してください。 AI 愛好家でも、ファッション愛好家でも、あるいは単に最新のテクノロジーの進歩に興味がある人でも、このビデオは仮想衣類試着の最先端の世界についての貴重な洞察を提供します。
私たちは、拡散モデル、UNets、注目の世界に飛び込みます。そこでは、これらすべての信じられないほど強力なメカニズムが力を合わせて、ファッションとオンライン小売の分野を支援します。もちろん、この作業には限界がありますが、(後でわかるように) 結果は驚くべきものであり、非常に有望です。
あなたの顔を取得して、それを面白い漫画に変換したり、髪の色の変更などの顔の属性を編集したり、画像を単にアップスケールしてより HD にしたりできる AI モデルについて話しましょう。私の記事を読んでいる方なら、これらのアプリケーションのほとんどが、すでに何度も取り上げた StyleGAN と呼ばれる単一のモデルとその複数のバージョンに依存していることをご存知でしょう。 StyleGAN は、NVIDIA によって開発された GAN ベースのアーキテクチャであり、入力を受け取り、それをトレーニングされた特定のスタイルに従って別の入力に変換できます。また、これはオープンソースでもあり、誰もがそれを使用し、その上に構築できることを意味し、すべての研究論文がそれを使用している理由もわかります。
StyleGAN の問題は、トレーニングされたデータから固定画像解像度で切り取られ、整列された顔に限定されることです。つまり、現実世界の画像の場合、顔を見つけて切り取り、向きを変えるには別のアプローチが必要であり、同じ画像解像度も必要です。通常、高品質の画像が必要ですが、その画像を使用したトレーニングには信じられないほど時間がかかるため、これは大きな問題です。
したがって、私たちが通常行うことは、StyleGAN アーキテクチャを使用して画像のスタイル転送を行い、その後、別のネットワークを使用して画像をより高い解像度にアップスケールすることです。このアプローチはうまく機能しますが、決して理想的ではありません。 1 つではなく 2 つのモデルが必要になるため、より多くのバイアスと潜在的なエラーが追加され、両方をトレーニングする必要があり、一般化機能が制限されます。私たちにとって幸運なことに、何人かの素晴らしい研究者がこの限られた入力画像の問題に取り組んでおり、最近、非常に巧妙な小さな変更を加えた StyleGANEX と呼ばれる新しいアプローチを ICCV 2023 で発表しました...
リストを共有する場合は、 Twitterで @Whats_AI またはLinkedIn で@Louis (What's AI) Bouchard とタグ付けしてください。
私たちは大規模言語モデル (LLM) の驚くべき機能を目の当たりにしてきましたが、私たちの周囲の世界に対する彼らの理解にはギャップがあり、欠けている部分がありました。彼らはテキスト、コード、画像の扱いに優れていますが、私たちの現実と真に関わるには苦労しています。つまり、今までです。 AI の分野における画期的な進歩、3D-LLM を紹介します。
3D-LLM は、言語と私たちが住む 3D 領域との間のギャップを埋める新しいモデルです。それは私たちの世界全体をカバーしているわけではありませんが、私たちの生活を形作る重要な次元とテキストを理解する上での記念碑的な進歩です。ビデオでわかるように、3D-LLM は世界を認識するだけでなく、世界と対話します。環境について質問をしたり、物体を探したり、空間を移動したりして、その常識的な推論を目撃することができます。これは、ChatGPT で経験した畏敬の念を抱かせる偉業を思い出させます。
さらに興味深いことに、著者らは ChatGPT の能力を利用して、これから学習する 3 つの異なる方法でデータを収集し、モデルのトレーニングに使用される各シーンのタスクと例の包括的なリポジトリを作成しました。
この研究では、幻覚のリスクを軽減しながら、大規模な言語モデルを統合して連携して機能させるための新しいフレームワークを導入しています。このアプローチは、AI エージェントの能力と標準化された操作手順の明確さを組み合わせて、エージェントが効果的に連携し、ユーザーの目的に沿った状態を維持できるようにします。
毎週のニュースレターを購読して、2023 年の AI に関する新しい出版物の最新情報を入手してください。
劉ら。 GPT-4 を使用して、LLaVA と呼ばれる汎用言語ビジョン モデルを作成しました。これは、視覚的および言語ベースの指示を理解して従う初の汎用モデルです。はい、彼らは GPT-4 を基本モデルとして使用したのではなく、モデルをトレーニングするために使用しました。ビデオで説明するように、GPT-4 は、画像を理解する新しいモデルをトレーニングするための大規模で高品質のデータセットを生成するために使用されました。ああ、明らかに、画像だけでなくテキストも理解できるので (マルチモダリティがあります)、つまり画像に関するさまざまな質問に答えることができます。詳細については、記事全文またはビデオをご覧ください...
私たちは、テキストを生成し、画像を生成するための新しいアプローチを数多く見てきましたが、その方法はますます改良されています。その後、テキストからビデオや 3D モデルを生成する他の驚くべき初期作品も見てきました。文章しかなく、現実世界のオブジェクトのように見えるものを、そのすべての詳細を含めて生成する必要がある場合、そのようなタスクの複雑さを想像してみてください。さて、ここでは単なる初期段階ではない新しいものを紹介します。 MVDream は、テキストだけからの 3D モデル生成における大きな進歩です。
Distil-Whisper は、オリジナルの Whisper モデルよりも 6 倍高速で、49% 小型で、99% の精度を維持する音声転写モデルです。そして、これの最も優れた点は、完全にオープンソースであり、すぐに使用できることです。
このビデオでは、Stable Video Diffusion (SVD) について詳しく説明し、Stability AI のこの革新的なテクノロジーが AI 主導のビデオ作成にどのように革命をもたらしているかを探ります。拡散モデルの中核原理と、テキストからビデオへの合成およびマルチビュー合成におけるそのアプリケーションを理解します。これは、ビデオ生成の未来を把握したい AI およびデジタル メディア愛好家にとって理想的です。
もっと論文を読み、より広い視野を持ちたい場合は、2022 年をカバーするもう 1 つの優れたリポジトリ: 2022: A Year Full of Amazing AI Papers- A Review を参照してください。また、お気軽に週刊ニュースレターを購読して最新情報を入手してください。 - 2023 年の AI の新刊情報!
リストを共有する場合は、 Twitterで @Whats_AI またはLinkedIn で@Louis (What's AI) Bouchard とタグ付けしてください。
[1] Wang, C.、Chen, S.、Wu, Y.、Zhang, Z.、Zhou, L.、Liu, S.、Chen, Z.、Liu, Y.、Wang, H.、Li, J. および He, L.、2023 年。ニューラル コーデック言語モデルはゼロショットのテキスト読み上げシンセサイザー、https://arxiv.org/abs/2301.02111
[2] Brooks et al.、2022: InstructPix2Pix、https://arxiv.org/abs/2211.09800
[3] Agostinelli 他、2023: MusicLM、https://arxiv.org/abs/2301.11325
[4] Esser, P.、Chiu, J.、Atighehchian, P.、Granskog, J.、および Germanidis, A.、2023 年。拡散モデルを使用した構造およびコンテンツ誘導ビデオ合成、https://arxiv.org/abs /2302.03011
[5] Driess, D.、Xia, F.、Sajjadi, MS、Lynch, C.、Chowdhery, A.、Ichter, B.、Wahid, A.、Tompson, J.、Vuong, Q.、Yu, T . and Huang, W.、2023. Palm-e: 具現化されたマルチモーダル言語モデル、 https://arxiv.org/abs/2303.03378
[6] キリロフ、A.、ミントゥン、E.、ラヴィ、N.、マオ、H.、ローランド、C.、グスタフソン、L.、シャオ、T.、ホワイトヘッド、S.、バーグ、AC、ロー、ワイオミング州および Dollar, P.、2023。何でもセグメント化、https://arxiv.org/abs/2304.02643
[7] Tewel, Y.、Gal, R.、Chechik, G.、および Atzmon, Y.、2023 年。テキストから画像へのパーソナライゼーションのためのキーロック ランク 1 編集、https://arxiv.org/abs/2305.01644
[8] Pan, X.、Tewari, A.、Leimkühler, T.、Liu, L.、Meka, A. および Theobalt, C.、2023 年。GAN をドラッグ: 生成画像多様体上の対話型ポイントベースの操作、 https://arxiv.org/abs/2305.10973
[9] Li, Z.、Müller, T.、Evans, A.、Taylor, RH、Unberath, M.、Liu, MY および Lin, CH、2023。Neuralangelo: 高忠実度神経表面再構成。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録 (pp. 8456-8465)、https://arxiv.org/abs/2306.03092
[10] Zhu, L.、Yang, D.、Zhu, T.、Reda, F.、Chan, W.、Saharia, C.、Norouzi, M.、Kemelmacher-Shlizerman, I.、2023. TryOnDiffusion: A 2 つの Unet の物語。コンピューター ビジョンとパターン認識に関する IEEE/CVF 会議議事録 (pp. 4606-4615)、https://arxiv.org/abs/2306.08276
[11] Yang, S.、Jiang, L.、Liu, Z.、Loy, CC、2023 年。StyleGANEX: トリミングされた整列面を超えた StyleGAN ベースの操作。 arXiv プレプリント arXiv:2303.06146。
[12] Hon, Y.、Zhen, H.、Chen, P.、Zheng, S.、Du, Y.、Chen, Z.、および Gan, C.、2023。 3d-llm: 3d 世界を大規模な空間に挿入する言語モデル。 arXiv プレプリント arXiv:2307.12981。
[13]Hong, S.、Zheng, X.、Chen, J.、Cheng, Y.、Zhang, C.、Wang, Z.、Yau, SKS、Lin, Z.、Zhou, L.、Ran, C. . and Xiao, L.、2023。Metagpt: マルチエージェントの協調フレームワークのためのメタ プログラミング。 arXiv プレプリント arXiv:2308.00352。
[14] Liu, H.、Li, C.、Wu, Q.、および Lee, YJ、2023 年。視覚的な指示のチューニング。 arXiv プレプリント arXiv:2304.08485。
[15] Shi, Y.、Wang, P.、Ye, J.、Long, M.、Li, K.、Yang, X.、2023. Mvdream: 3D 生成のためのマルチビュー拡散。 arXiv プレプリント arXiv:2308.16512。
[16] Gandhi, S.、von Platen, P.、および Rush, AM、2023 年。蒸留-ウィスパー: 大規模な擬似ラベルによる堅牢な知識の蒸留。 arXiv プレプリント arXiv:2311.00430。
[17] Blattmann et al.、2023: 安定したビデオの拡散。 https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf