awesome colab notebooks
1.0.0
ページが正しく表示されない可能性があります。 README.md ファイルを直接開いてください。
リポジトリ | 論文 |
---|---|
|
|
名前 | 説明 | 著者 | リンク | 協力的な | アップデート |
---|---|---|---|---|---|
コトラッカー | ビデオ全体を通じて複数のポイントを共同で追跡するアーキテクチャ |
その他 |
| 2024 年 10 月 16 日 | |
ピフ | 高解像度の着衣人物デジタル化のためのピクセル整列された暗黙関数 |
| 2024 年 8 月 10 日 | ||
ディフェイス | 複雑な損失設計を行わずに、目に見えない複雑な劣化により適切に対処できる手法 |
|
| 2024 年 5 月 10 日 | |
何でもセグメント 2 | 画像やビデオの視覚的なセグメンテーションを迅速に解決するための基礎モデル |
その他 |
| 2024 年 10 月 1 日 | |
オープンアンミックス | 研究者、オーディオ エンジニア、アーティストに適用可能な、音楽ソース分離のためのディープ ニューラル ネットワークのリファレンス実装 |
|
| 2024 年 9 月 25 日 | |
絵画のような深い調和 | アルゴリズムは、写真合成やグローバル スタイライゼーション技術よりも大幅に優れた結果を生成し、他の方法では達成が困難な創造的な絵画のような編集を可能にします。 |
|
| 2024 年 9 月 23 日 | |
オーディオ2フォトリアル | 二項対話の会話ダイナミクスに従ってジェスチャーを行う全身の写真のようにリアルなアバターを生成するためのフレームワーク |
その他 |
| 2024 年 9 月 13 日 | |
何でも高速セグメント化 | SAM 著者が公開した SA-1B データセットのわずか 2% を使用してトレーニングされた CNN セグメント Anything モデル |
その他 |
| 2024 年 9 月 10 日 | |
ニューラランジェロ | RGB ビデオ キャプチャから高忠実度 3D サーフェスを再構築するためのフレームワーク |
その他 |
| 2024 年 9 月 2 日 | |
BiRefNet | 高解像度二分画像セグメンテーションのための双方向参照フレームワーク |
その他 |
| 2024.08.23 | |
スピン | ループ内でのモデルフィッティングによる 3D 人間のポーズと形状の再構成の学習 |
|
| 2024.08.21 | |
YOLOv10 | 後処理とモデル アーキテクチャの両方から YOLO のパフォーマンスと効率の境界をさらに前進させることを目指します |
その他 |
| 2024.08.20 | |
スペックVQGAN | トレーニング データセットを代表的なベクトルのセットに縮小することで、視覚的にガイドされたサウンド生成を制御する |
|
| 2024 年 7 月 12 日 | |
ライブポートレート | 実用化のための汎用性、制御性、効率性の向上に重点を置いた、ビデオ主導のポートレート アニメーション フレームワーク |
その他 |
| 2024 年 7 月 10 日 | |
バク | フレームごとの初期化と時間的精密化による任意のポイントの追跡 |
その他 |
| 2024 年 5 月 7 日 | |
Wav2Lip | リップシンクのエキスパートがあれば、現場での Speech to Lip の生成に必要なすべてが得られます |
|
| 2024.06.27 | |
ディープラボカット | 最小限のトレーニング データで優れた結果を達成する、ディープ ニューラル ネットワークを使用した転移学習に基づくマーカーレス姿勢推定の効率的な方法 |
その他 |
| 2024 年 5 月 6 日 | |
プール元 | MetaFormer は実際にビジョンに必要なものです |
その他 |
| 2024 年 6 月 1 日 | |
ストーリーの拡散 | 生成された画像間の一貫性を大幅に高め、一般的な事前学習済みの拡散ベースのテキストから画像へのモデルをゼロショット方式で強化する、一貫したセルフアテンションと呼ばれるセルフ アテンションの計算方法。 |
|
| 2024 年 4 月 5 日 | |
プリド | Pure および Lightning ID カスタマイズ、テキストから画像への生成のためのチューニング不要の ID カスタマイズ方法 |
|
| 2024 年 3 月 5 日 | |
膜 | 中間の動きが大きい 2 つの入力画像から複数の中間フレームを合成するフレーム補間アルゴリズム |
その他 |
| 2024 年 3 月 5 日 | |
ボイスクラフト | トークン充填ニューラル コーデック言語モデル。オーディオブック、インターネット ビデオ、ポッドキャストでの音声編集とゼロショット テキスト読み上げの両方で最先端のパフォーマンスを実現します。 |
|
| 2024.04.21 | |
ゼスト | マテリアルのサンプル画像を与えられた入力画像内のオブジェクトにゼロショット マテリアルを転送する方法 |
|
| 2024 年 4 月 16 日 | |
インスタントメッシュ | 単一の画像から 3D メッシュを瞬時に生成するためのフィードフォワード フレームワーク。最先端の生成品質と優れたトレーニング スケーラビリティを備えています。 |
その他 |
| 2024 年 4 月 16 日 | |
アルファフォールド | 高精度なタンパク質構造予測 |
その他 |
| 2024 年 4 月 15 日 | |
ヴュルストヒェン | 大規模なテキストから画像への拡散モデル向けに、競争力のあるパフォーマンスと前例のない費用対効果を組み合わせたテキストから画像への合成のためのアーキテクチャ |
| 2024 年 4 月 6 日 | ||
AQLM | 加算量子化による大規模言語モデルの極端な圧縮 |
その他 |
| 2024 年 3 月 8 日 | |
YOLOv9 | プログラム可能な勾配情報を使用して学びたいことを学ぶ |
|
| 2024 年 3 月 5 日 | |
マルチLoRA構成 | LoRA スイッチと LoRA コンポジット、特に複雑な構図において、精度と画質の点で従来の技術を超えることを目的としたアプローチ |
その他 |
| 2024 年 3 月 3 日 | |
アマレット | ヒト疾患の生物学的システム内および生物学的システム全体で共有および区別される細胞回路とそのドライバーを特定するための制御ネットワークのマルチスケールおよびマルチモーダル推論 |
その他 |
| 2024 年 2 月 28 日 | |
リダ | 文法に依存しないビジュアライゼーションとインフォグラフィックを生成するツール | ビクター・ディビア |
| 2024 年 6 月 2 日 | |
ViT | ビジョントランスフォーマーとMLPミキサーのアーキテクチャ |
その他 |
| 2024 年 6 月 2 日 | |
3D ケン・バーンズ | PyTorch を使用した単一画像からの 3D Ken Burns エフェクトのリファレンス実装 - 単一の入力画像が与えられると、仮想カメラ スキャンと動き視差に応じたズームを使用してこの静止画像をアニメーション化します。 | マヌエル・ロメロ | 2024 年 1 月 24 日 | ||
ヴァリーX | クロスリンガル音声合成のためのクロスリンガルニューラルコーデック言語モデル |
その他 |
| 2024 年 1 月 19 日 | |
フォトメーカー | 効率的なパーソナライズされたテキストから画像への生成方法。主に、ID 情報を保存するために、任意の数の入力 ID 画像をスタック ID 埋め込みにエンコードします。 |
その他 |
| 2024 年 1 月 18 日 | |
DDカラー | 画像のカラー化のためのデュアル デコーダを使用したエンドツーエンド方式 |
その他 |
| 2024 年 1 月 15 日 | |
PASD | 堅牢な Real-ISR とパーソナライズされたスタイルを実現するピクセル認識の安定した拡散ネットワーク |
|
| 2024 年 1 月 12 日 | |
ハンドリファイナー | 拡散ベースの条件付き修復による、生成された画像内の不正な手を調整する |
|
| 2024 年 8 月 1 日 | |
グラフキャスト | 上手に中期の地球天気予報を学ぶ |
その他 |
| 2024 年 4 月 1 日 | |
ESM | 進化スケール モデリング: タンパク質の事前トレーニング済み言語モデル |
その他 |
| 2023.12.28 | |
LLaVA | Large Language and Vision Assistant は、汎用の視覚と言語の理解のためにビジョン エンコーダと LLM を接続する、エンドツーエンドでトレーニングされた大規模マルチモーダル モデルです。 |
|
| 2023.12.22 | |
背景マット V2 | 最新の GPU で 4K 解像度では 30fps、HD では 60fps で動作する、リアルタイムの高解像度背景置換技術 |
その他 |
| 2023.12.22 | |
ガウス スプラッティング | 競争力のあるトレーニング時間を維持しながら最先端のビジュアル品質を実現し、重要な点として、1080p 解像度での高品質のリアルタイム (100 fps 以上) のノベルビュー合成が可能になります。 |
|
| 2023.12.19 | |
SMPLer-X | バックボーンとして最大 ViT-Huge を使用し、多様なデータ ソースからの最大 450 万のインスタンスを使用してトレーニングする、最初のジェネラリスト基盤モデルに向けて EHPS をスケールアップします。 |
その他 |
| 2023.12.18 | |
ディープキャッシュ | モデルアーキテクチャの観点から普及モデルを加速するトレーニング不要のパラダイム |
|
| 2023.12.18 | |
マジックアニメイト | 時間的一貫性の強化、参照画像の忠実な保存、アニメーションの忠実度の向上を目的とした拡散ベースのフレームワーク |
その他 |
| 2023.12.18 | |
ディフBIR | 生成拡散事前によるブラインド画像復元に向けて |
その他 |
| 2023.12.18 | |
オーディオLDM | 潜在空間上に構築され、対照的な言語音声の事前学習潜在から連続音声表現を学習するテキスト音声変換システム |
その他 |
| 2023 年 2 月 12 日 | |
TabPFN | 表形式のデータ予測を学習したニューラル ネットワーク |
|
| 2023.11.29 | |
コンセプトスライダー | 事前トレーニングされたモデルの上に適用されるプラグアンドプレイの低ランクアダプター |
|
| 2023.11.26 | |
クウェン-VL | テキストと画像の両方を認識して理解するように設計された大規模な視覚言語モデルのセット |
その他 |
| 2023.11.24 | |
アニメGANv3 | 高速写真アニメーションのためのダブルテール生成敵対的ネットワーク |
|
| 2023.11.23 | |
イサカ | 古代ギリシャ碑文のテキスト復元、地理的および年代的帰属のための初のディープ ニューラル ネットワーク |
その他 |
| 2023.11.21 | |
PixArt-Σ | 4K テキストから画像への生成のための拡散トランスフォーマーの弱から強へのトレーニング |
その他 |
| 2023 年 7 月 11 日 | |
ゼロ123++ | 単一の入力ビューから 3D 一貫性のあるマルチビュー画像を生成するための画像条件付き拡散モデル |
その他 |
| 2023.10.26 | |
UniFormerV2 | 効率的な時空間表現学習のための統合トランスフォーマー |
その他 |
| 2023.10.20 | |
ショー-1 | Show-1 と呼ばれるハイブリッド モデル。ピクセルベースと潜在ベースの VDM を組み合わせてテキストからビデオを生成します。 |
その他 |
| 2023.10.15 | |
オーディオセプ | 自然言語クエリによるオープンドメイン音源分離の基礎モデル |
その他 |
| 2023.10.12 | |
DAクリップ | 劣化を認識した視覚言語モデルにより、画像復元のための普遍的なフレームワークとして、事前トレーニングされた視覚言語モデルを低レベルの視覚タスクに適切に転送できます。 |
|
| 2023 年 10 月 11 日 | |
サッドトーカー | オーディオから 3DMM の 3D モーション係数を生成し、トーキング ヘッド生成用の新しい 3D 対応の顔レンダリングを暗黙的に変調します。 |
その他 |
| 2023 年 10 月 10 日 | |
ムシカ | 単一のコンシューマ GPU を使用して数百時間の音楽でトレーニングでき、コンシューマ CPU で任意の長さの音楽をリアルタイムよりもはるかに高速に生成できる音楽生成システム |
|
| 2023 年 9 月 10 日 | |
YOLOv6 | 産業用アプリケーション専用の一段階物体検出フレームワーク |
|
| 2023 年 8 月 10 日 | |
ドリームガウス | 3D ガウスをテクスチャ メッシュに変換し、微調整ステージを適用して詳細を調整するアルゴリズム |
|
| 2023 年 4 月 10 日 | |
アイコン | 一連の画像を指定すると、各画像から詳細な 3D サーフェスを推定し、これらを組み合わせてアニメーション化可能なアバターを作成します。 |
|
| 2023.08.31 | |
DINOv2 | さまざまなコンピューター ビジョン タスクで、線形レイヤーと同じくらい単純な分類器で直接使用できる高性能の視覚機能を生成します。これらの視覚機能は堅牢であり、微調整を必要とせずにドメイン間で良好に機能します。 |
その他 |
| 2023.08.31 | |
OWL-ViT | ビジョントランスフォーマーを使用したシンプルなオープンボキャブラリーオブジェクト検出 |
その他 | 2023.08.21 | ||
スタイルGAN3 | エイリアスフリーの敵対的生成ネットワーク |
その他 |
| 2023.08.13 | |
FateZero | プロンプトごとのトレーニングや用途固有のマスクを使用しない、現実世界のビデオに対するゼロショット テキストベースの編集方法 |
その他 |
| 2023.08.13 | |
ビッグGAN | 高忠実度の自然画像合成のための大規模 GAN トレーニング |
| 2023 年 3 月 8 日 | ||
ラマ | フーリエ畳み込みを使用した解像度に強い大型マスクの修復 |
その他 |
| 2023 年 8 月 2 日 | |
メイクイットトーク | 唯一の入力として音声を使用し、単一の顔画像から表情豊かなトーキングヘッドビデオを生成する方法 |
その他 |
| 2023.07.27 | |
HiDT | 生成的な画像間モデルと、高解像度での画像変換の適用を可能にする新しいアップサンプリング スキーム |
|
| 2023.07.24 | |
カトラー | 教師なし物体検出およびセグメンテーション モデルをトレーニングするためのシンプルなアプローチ |
|
| 2023.07.24 | |
何でも認識&Tag2Text | 視覚言語の事前トレーニング フレームワーク。視覚言語モデルに画像のタグ付けを導入して、視覚言語の特徴の学習をガイドします。 |
その他 |
| 2023 年 9 月 7 日 | |
薄板スプライン運動モデル | エンドツーエンドの教師なしモーション転送フレームワーク |
|
| 2023 年 7 月 7 日 | |
ドラッグガン | GAN をドラッグ: 生成画像マニホールドでのインタラクティブなポイントベースの操作 |
その他 |
| 2023 年 3 月 7 日 | |
モバイルSAM | モバイル アプリケーション向けの軽量 SAM を目指して |
その他 |
| 2023.06.30 | |
グランディングDINO | DINO と開集合物体検出のための接地された事前トレーニングを組み合わせる |
その他 |
| 2023.06.28 | |
T5X | さまざまなスケールでのシーケンス モデルの高性能で構成可能なセルフサービス トレーニング、評価、推論のための、モジュール式で構成可能で研究しやすいフレームワーク |
その他 |
| 2023.06.27 | |
コードトーカー | 学習済みコードブックの有限プロキシ空間でコード クエリ タスクとして音声駆動のフェイシャル アニメーションをキャストします。これにより、クロスモーダル マッピングの不確実性が低減され、生成されたモーションの鮮やかさが効果的に促進されます。 |
その他 |
| 2023.06.16 | |
画像アニメーションの一次運動モデル | 顔の動きをビデオから画像に転送する | アリアクサンドル・シアロヒン |
| 2023 年 4 月 6 日 | |
パラレルWaveGAN | 独自の優れたボコーダーを構築するための最先端の非自己回帰モデル | 林智樹 |
| 2023 年 6 月 1 日 | |
ECON | 暗黙的表現と明示的表現の最良の特性を組み合わせた「カラー画像からの人間のデジタル化」用に設計されており、たとえ緩い服を着ていたり、難しいポーズを取っていても、野生の画像から服を着た高忠実度の 3D の人間を推測できます。 |
|
| 2023.05.31 | |
MMS | Massively Multilingual Speech プロジェクトは、1,100 を超える言語をサポートする単一の多言語音声認識モデル、4,000 を超える言語を識別できる言語識別モデル、1,400 を超える言語をサポートする事前トレーニング済みモデル、およびテキストから1100以上の言語の音声モデル |
その他 |
| 2023.05.26 | |
FAB | フロー AIS ブートストラップは、AIS を使用して、フローがターゲットの近似に乏しい領域でサンプルを生成し、新しいモードの発見を容易にします。 |
|
| 2023.04.29 | |
コードフォーマー | コード予測用に低品質の顔の全体的な構成とコンテキストをモデル化するトランスフォーマーベースの予測ネットワークにより、入力が著しく劣化している場合でも、ターゲットの顔に非常に近い自然な顔を検出できます。 |
|
| 2023.04.21 | |
Text2Video-Zero | テキストから画像への拡散モデルはゼロショット ビデオ ジェネレーターです |
その他 |
| 2023 年 4 月 11 日 | |
何でもセグメント化 | セグメント何でもモデルは、ポイントやボックスなどの入力プロンプトから高品質のオブジェクト マスクを生成し、画像内のすべてのオブジェクトのマスクを生成するために使用できます。 |
その他 |
| 2023 年 4 月 10 日 | |
ポーズに従ってください | 画像ポーズ ペアとポーズフリー ビデオ データセット、および事前トレーニングされたテキストから画像へのモデルを利用して、ポーズ制御可能なキャラクター ビデオを取得できる 2 段階のトレーニング スキーム |
その他 |
| 2023 年 4 月 7 日 | |
EVA3D | トレーニングには 2D 画像コレクションのみが必要な、高品質の無条件 3D 人体生成モデル |
|
| 2023 年 4 月 6 日 | |
安定のドリームフュージョン | 事前トレーニングされた 2D テキストから画像への拡散モデルを使用してテキストから 3D への合成を実行する |
|
| 2023 年 4 月 4 日 | |
PIFuHD | 高解像度 3D 人間デジタル化のためのマルチレベルのピクセル位置合わせされた暗黙関数 |
|
| 2023.03.26 | |
ビデオリトーキング | 入力音声に応じて現実世界のトーキングヘッドビデオの顔を編集し、異なる感情があっても高品質で口パクの出力ビデオを生成するシステム |
その他 |
| 2023.03.19 | |
ビジュアルチャットGPT | ChatGPTと一連のVisual Foundation Modelを接続し、チャット中に画像の送受信を可能にします。 |
その他 |
| 2023.03.15 | |
ビデオの調整 | テキストからビデオへの生成のための画像拡散モデルのワンショット調整 |
その他 |
| 2023.02.23 | |
GPEN | 野外でのブラインドフェイス修復のための GAN 事前組み込みネットワーク |
|
| 2023.02.15 | |
PyMAF-X | 単眼画像からパラメトリック全身モデルを復元するための出口ベースのアプローチ |
その他 |
| 2023 年 2 月 14 日 | |
ディスコの普及 | AI アートとアニメーションを生成するためのノートブック、モデル、技術をフランケンシュタインのように融合したもの |
|
| 2023 年 2 月 11 日 | |
GrooVAE | ビートとドラムパフォーマンスの生成と操作のための機械学習のいくつかの応用 |
|
| 2023 年 2 月 2 日 | |
マルチトラック音楽VAE | このノートブックのモデルは、オプションで基礎となるコードを条件として、最大 8 トラックの単一小節をエンコードおよびデコードできます。 |
その他 |
| 2023 年 2 月 2 日 | |
音楽VAE | 音楽の長期構造を学習するための階層型潜在ベクトルモデル |
|
| 2023 年 2 月 2 日 | |
絵を描くことを学ぶ | モデルベースの深層強化学習によるペイントの学習 | マヌエル・ロメロ | 2023 年 2 月 1 日 | ||
インスタントNGP | 多重解像度ハッシュエンコーディングを使用したインスタントニューラルグラフィックスプリミティブ |
|
| 2023.01.18 | |
フーリエ特徴ネットワーク | フーリエ特徴によりネットワークは低次元領域の高周波関数を学習できる |
その他 |
| 2023.01.17 | |
アルファポーズ | 全身の局所的な複数人の姿勢の推定とリアルタイムの追跡 |
その他 |
| 2023 年 7 月 1 日 | |
HybrIK | 3D 人間の姿勢と形状を推定するためのハイブリッド分析-ニューラル逆運動学ソリューション |
その他 |
| 2023 年 1 月 1 日 | |
スコアヤコビアン連鎖 | 学習した勾配にチェーン ルールを適用し、微分可能レンダラーのヤコビアンを介して拡散モデルのスコアを逆伝播します。これをボクセル放射フィールドとしてインスタンス化します。 |
|
| 2022 年 5 月 12 日 | |
デムクス | ハイブリッド スペクトログラムと波形ソースの分離 | アレクサンドル・デフォセ |
| 2022.11.21 | |
スタイルクリップ | StyleGAN Imager のテキスト駆動の操作 |
|
| 2022.10.30 | |
モーションディフューズ | 初の拡散モデルベースのテキスト駆動モーション生成フレームワーク。既存の方法に比べて望ましいいくつかの特性を実証します。 |
その他 |
| 2022 年 10 月 13 日 | |
VToonify | StyleGAN の中解像度および高解像度レイヤーを活用して、エンコーダーによって抽出されたマルチスケール コンテンツの特徴に基づいて高品質の芸術的なポートレートをレンダリングし、フレームの詳細をより適切に保存します。 |
|
| 2022 年 7 月 10 日 | |
PyMAF | ピラミッド メッシュ アライメント 回帰ネットワークのフィードバック ループにより、適切に位置合わせされたボディ メッシュを回復し、それを拡張して表現力豊かな全身モデルを回復します。 |
その他 |
| 2022 年 6 月 10 日 | |
アルファテンソル | 強化学習によるより高速な行列乗算アルゴリズムの発見 |
その他 |
| 2022 年 4 月 10 日 | |
Swin2SR | Novel Swin Transformer V2 は、画像の超解像度、特に圧縮入力シナリオ向けに SwinIR を改善します。 |
|
| 2022 年 3 月 10 日 | |
機能 | データから関数へ: データポイントは関数であり、関数のように扱うことができます。 |
|
| 2022.09.24 | |
ささやき | Web から収集した 680,000 時間の多言語およびマルチタスクの監視データに基づいてトレーニングされた自動音声認識システム |
その他 |
| 2022.09.21 | |
DeOldify (ビデオ) | 自分のビデオに色を付けましょう! | ジェイソン・アンティック |
| 2022 年 9 月 19 日 | |
古いものを取り除く(写真) | 自分の写真に色を付けてみましょう! |
|
| 2022.09.19 | |
リアル ESRGAN | 強力な ESRGAN を、純粋な合成データでトレーニングされた実用的な復元アプリケーションに拡張します。 |
|
| 2022.09.18 | |
IDE-3D | 高解像度の 3D 対応ポートレート合成のためのインタラクティブな解きほぐし編集 |
その他 |
| 2022 年 8 月 9 日 | |
意思決定トランスフォーマー | RLの問題を条件付きシーケンスモデルとしてキャストするアーキテクチャ
拡大する
追加情報
関連アプリ
おすすめ
関連情報
すべて
|