CVPR 2024 の決定が OpenReview で入手できるようになりました。
注 1: 誰もが問題を提出し、CVPR 2024 論文やオープンソース プロジェクトを共有することを歓迎します。
注 2: 過去の CV カンファレンスの論文やその他の質の高い CV 論文、包括的なレビューの詳細については、https://github.com/amusi/daily-paper-computer-vision を参照してください。
- ECCV2024
- CVPR 2023
QR コードをスキャンして、最大のコンピュータ ビジョン AI ナレッジ プラネットである [CVer Academic Exchange Group] へようこそ!毎日更新され、コンピューター ビジョン、AI ペインティング、画像処理、ディープ ラーニング、自動運転、医用画像処理、AIGC に関する最新かつ最先端の学習教材をできるだけ早く共有します。
Scaffold-GS: ビュー適応レンダリング用の構造化 3D ガウス
GPS ガウス: リアルタイム ヒューマン ノベル ビュー合成のための一般化可能なピクセル単位の 3D ガウス スプラッティング
GaussianAvatar: アニメーション化可能な 3D ガウスを介した 1 つのビデオからのリアルな人間のアバター モデリングを目指して
GaussianEditor: ガウス スプラッティングによる迅速かつ制御可能な 3D 編集
変形可能な 3D ガウスによる高忠実度の単眼ダイナミック シーン再構築
SC-GS: 編集可能な動的シーン向けのスパース制御ガウス スプラッティング
リアルタイムの動的ビュー合成のための時空ガウス特徴量スプラッティング
DNGaussian: グローバル-ローカル深度正規化によるスパースビュー 3D ガウス放射輝度フィールドの最適化
リアルタイムのダイナミックなシーンレンダリングのための 4D ガウス スプラッティング
GaussianDreamer: 2D および 3D 拡散モデルのブリッジングによるテキストから 3D ガウスへの高速生成
GaussianAvatar: アニメーション化可能な 3D ガウスを介した 1 つのビデオからのリアルな人間のアバター モデリングを目指して
ヘッドマウントセンサーからリアルタイムにシミュレートされたアバター
RepViT: ViT の観点からモバイル CNN を再考する
TransNext: ビジョントランスフォーマー向けの堅牢な中心窩視覚知覚
Alpha-CLIP:好きな場所に集中できるCLIPモデル
FairCLIP: 視覚言語学習における公平性の活用
EmbodiedScan: 身体化された AI に向けた総合的なマルチモーダル 3D 認識スイート
MP5: アクティブな知覚による Minecraft のマルチモーダルなオープンエンドの身体化システム
LEMON: 2D 画像から 3D の人間とオブジェクトのインタラクション関係を学習する
OCR のスケーリング則に関する実証的研究
ODM: シーンのテキスト検出とスポッティングのためのテキストと画像のさらなる位置合わせ事前トレーニング アプローチ
PIE-NeRF?: NeRF を使用した物理ベースのインタラクティブな弾性力学
DETR はリアルタイムの物体検出で YOLO を上回る
Salience DETR: 階層的顕著性フィルタリングの改良による検出トランスフォーマーの強化
mPLUG-Owl2: モダリティコラボレーションによるマルチモーダル大規模言語モデルの革命
マルチモーダル LLM のためのリンクコンテキスト学習
OPERA: 過剰信頼ペナルティと遡及割り当てによるマルチモーダル大規模言語モデルの幻覚の軽減
大規模なマルチモーダル モデルで任意の視覚的プロンプトを理解できるようにする
ピンク: マルチモーダル llms の参照理解の力を明らかにする
Chat-UniVi: 統一された視覚表現により、大規模な言語モデルに画像とビデオの理解を強化します
OneLLM: すべてのモダリティを言語に合わせるための 1 つのフレームワーク
VTimeLLM: LLM がビデオの瞬間を把握できるようにする
マジック トークン: マルチモーダル オブジェクトの再識別用に多様なトークンを選択
テキストから画像への人物再識別のためのノイズ対応学習
論文: https://arxiv.org/abs/2308.09911
コード: https://github.com/QinYang79/RDE
InstanceDiffusion: 画像生成のためのインスタンスレベルの制御
ホームページ: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
論文: https://arxiv.org/abs/2402.03290
コード: https://github.com/frank-xwang/InstanceDiffusion
残留ノイズ除去拡散モデル
DeepCache: 無料で拡散モデルを加速
DEADiff: もつれのない表現による効率的な様式化拡散モデル
ホームページ: https://tianhao-qi.github.io/DEADiff/
論文: https://arxiv.org/abs/2403.06951
コード: https://github.com/Tianhao-Qi/DEADiff_code
SVGDreamer: 拡散モデルを使用したテキストガイド付き SVG 生成
InteractDiffusion: テキストから画像への拡散モデルのインタラクション制御
MMA 拡散: 拡散モデルに対するマルチモーダル攻撃
VMC: テキストからビデオへの拡散モデルの時間的注意適応を使用したビデオ モーションのカスタマイズ
TransNext: ビジョントランスフォーマー向けの堅牢な中心窩視覚知覚
RepViT: ViT の観点からモバイル CNN を再検討する
トークン拡張による Transformer の一般的で効率的なトレーニング
PromptKD: 視覚言語モデルの教師なしプロンプト蒸留
FairCLIP: 視覚言語学習における公平性の活用
DETR はリアルタイムの物体検出で YOLO を上回る
ゼロショット昼夜ドメイン適応による物体検出の強化
YOLO-World: リアルタイムのオープンボキャブラリーオブジェクト検出
Salience DETR: 階層的顕著性フィルタリングの改良による検出トランスフォーマーの強化
オープンセットの教師あり異常検出のための異常異質性学習
複数オブジェクト追跡のための軌跡のロングテール分布を詳しく調べる
より強力、より少なく、より優れた: ドメイン一般化セマンティック セグメンテーションのための Vision Foundation モデルの活用
SED: オープンボキャブラリーのセマンティックセグメンテーションのためのシンプルなエンコーダ/デコーダ
特徴の再埋め込み: 計算病理学における基礎モデルレベルのパフォーマンスに向けて
VoCo: 3D 医用画像解析のためのシンプルかつ効果的なボリューム対照学習フレームワーク
ChAda-ViT : 異種顕微鏡画像の共同表現学習のためのチャネル適応型注意
UniPAD: 自動運転のための普遍的な事前トレーニング パラダイム
Cam4DOcc: 自動運転アプリケーションにおけるカメラのみの 4D 占有予測のベンチマーク
オンライン 3D シーン認識用のメモリベースのアダプター
コンテキスト インスタンス クエリを使用して 3D セマンティック シーンの補完をシンフォナイズする
沿道協力の認識のための実世界の大規模データセット
自動運転のためのシングルビューとマルチビューの深度の適応的融合
TSP6K データセットによる交通シーンの解析
PTT: 効率的な時間的 3D オブジェクト検出のための点軌跡変換器
UniMODE: 統合された単眼 3D オブジェクト検出
Edit One for All: インタラクティブなバッチ画像編集
MaskINT: 補間非自己回帰マスク トランスフォーマーによるビデオ編集
ホームページ: https://maskint.github.io
論文: https://arxiv.org/abs/2312.12468
残留ノイズ除去拡散モデル
事前トレーニングされたモデルからの事前分布による画像復元の強化
SeD: 画像超解像度のためのセマンティック認識ディスクリミネーター
APISR: 現実世界のアニメ超解像度にインスピレーションを得たアニメ制作
効率的なトランスフォーマーベースの 3D 人間の姿勢推定のための砂時計トークナイザー
InstanceDiffusion: 画像生成のためのインスタンスレベルの制御
ホームページ: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
論文: https://arxiv.org/abs/2402.03290
コード: https://github.com/frank-xwang/InstanceDiffusion
ECLIPSE: 画像生成のためのリソース効率の高いテキストから画像への事前変換
ホームページ: https://eclipse-t2i.vercel.app/
論文: https://arxiv.org/abs/2312.04655
コード: https://github.com/eclipse-t2i/eclipse-inference
Instruct-Imagen: マルチモーダル命令による画像生成
残留ノイズ除去拡散モデル
UniGS: 画像生成とセグメンテーションのための統合表現
テキストから画像への合成のためのマルチインスタンス生成コントローラー
SVGDreamer: 拡散モデルを使用したテキストガイド付き SVG 生成
InteractDiffusion: テキストから画像への拡散モデルのインタラクション制御
Ranni: 正確なプロンプトフォローのためにテキストから画像への拡散を制御する
Vlogger: あなたの夢を Vlog にしましょう
VBench: ビデオ生成モデル用の包括的なベンチマーク スイート
VMC: テキストからビデオへの拡散モデルの時間的注意適応を使用したビデオ モーションのカスタマイズ
CityDreamer: 境界のない 3D 都市の構成生成モデル
LucidDreamer: インターバル スコア マッチングによる高忠実度のテキストから 3D の生成に向けて
MVBench: 包括的なマルチモーダル ビデオ理解ベンチマーク
知識の蒸留におけるロジットの標準化
ミニマックス拡散による効率的なデータセットの蒸留
ステレオマッチングのためのニューラルマルコフランダムフィールド
HiKER-SGG: 階層的知識により強化された堅牢なシーン グラフ生成
KVQ: 短編ビデオのカレイドスコープビデオ品質評価
ホームページ: https://lixinustc.github.io/projects/KVQ/
論文: https://arxiv.org/abs/2402.07220
コード: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024
沿道協力の認識のための実世界の大規模データセット
TSP6K データセットによる交通シーンの解析
次のトークン予測としてのオブジェクト認識
ParameterNet: モバイル ネットワークの大規模なビジュアル事前トレーニングに必要なのはパラメーターだけです
位置エンコーディングをブレンドしたシームレスな人間のモーション合成
LL3DA: Omni-3D の理解、推論、計画のためのビジュアル インタラクティブな命令チューニング
ホームページ: https://ll3da.github.io/
論文: https://arxiv.org/abs/2311.18651
コード: https://github.com/Open3DA/LL3DA
CLOVA: ツールの使用と更新を備えたクローズドループのビジュアル アシスタント
MoMask: 3D 人間の動きの生成マスク モデリング
アモーダルな地上の真実と野生の完成
一貫性のある説明による視覚的根拠の向上
ImageNet-D: 拡散合成オブジェクトに対するニューラル ネットワークの堅牢性のベンチマーク
合成人間の集団活動から学ぶ
被験者を超えた脳解読フレームワーク
低ランクの専門家の混合によるマルチタスクの高密度予測
一般化されたカテゴリ発見のための対照平均シフト学習