CVPR2024 Papers with Codeダウンロード - CVPR2024 Papers with Codeソースコードのダウンロード

CVPR2024 Papers with Code

パイソン

1.0.0

ダウンロード

CVPR 2024 論文およびオープンソースプロジェクトコレクション (コード付き論文)

CVPR 2024 の決定が OpenReview で入手できるようになりました。

注 1: 誰もが問題を提出し、CVPR 2024 論文やオープンソースプロジェクトを共有することを歓迎します。
注 2: 過去の CV カンファレンスの論文やその他の質の高い CV 論文、包括的なレビューの詳細については、https://github.com/amusi/daily-paper-computer-vision を参照してください。
ECCV2024
CVPR 2023

QR コードをスキャンして、最大のコンピュータビジョン AI ナレッジプラネットである [CVer Academic Exchange Group] へようこそ!毎日更新され、コンピュータービジョン、AI ペインティング、画像処理、ディープラーニング、自動運転、医用画像処理、AIGC に関する最新かつ最先端の学習教材をできるだけ早く共有します。

[CVPR 2024 オープンソース論文ディレクトリ]

3DGS(ガウススプラッティング)
アバター
バックボーン
クリップ
前
身体化されたAI
ガン
GNN
マルチモーダル大規模言語モデル (MLLM)
大規模言語モデル (LLM)
NAS
OCR
NRF
DETR
プロンプト
普及モデル
ReID（再識別）
ロングテール配信（Long-Tail）
ビジョントランスフォーマー
視覚言語
自己教師あり学習
データ拡張
物体検出
異常検出
ターゲットトラッキング（ビジュアルトラッキング）
セマンティックセグメンテーション
インスタンスのセグメンテーション
パノプティックセグメンテーション
医用画像
医療画像のセグメンテーション
ビデオオブジェクトのセグメンテーション
ビデオインスタンスのセグメンテーション
画像の分割を参照する
画像マット化
画像編集
低レベルのビジョン
超解像
ノイズ除去
ブラーを除去する
自動運転
3D点群
3D オブジェクトの検出
3D セマンティックセグメンテーション
3D オブジェクト追跡
3D セマンティックシーンの完成 (3D セマンティックシーンの完成)
3D登録
3D人物姿勢推定
3Dヒューマンメッシュ推定
医用画像
画像生成
ビデオ生成
3D生成
ビデオの理解
動作検知
テキスト検出
知識の蒸留
モデルの枝刈り
画像圧縮
3D再構築
深さの推定
軌道予測
車線検出
画像キャプション
視覚的な質問への回答
手話認識
ビデオ予測
ノベルビューの合成
Zero-Shot Learning (ゼロサンプル学習)
ステレオマッチング
特徴マッチング
シーングラフの生成
暗黙的なニューラル表現
画質評価
ビデオ品質評価
データセット
新しいタスク
その他

3DGS(ガウススプラッティング)

Scaffold-GS: ビュー適応レンダリング用の構造化 3D ガウス

ホームページ: https://city-super.github.io/scaffold-gs/
論文: https://arxiv.org/abs/2312.00109
コード: https://github.com/city-super/Scaffold-GS

GPS ガウス: リアルタイムヒューマンノベルビュー合成のための一般化可能なピクセル単位の 3D ガウススプラッティング

ホームページ: https://shunyuanzheng.github.io/GPS-Gaussian
論文: https://arxiv.org/abs/2312.02155
コード: https://github.com/ShunyuanZheng/GPS-Gaussian

GaussianAvatar: アニメーション化可能な 3D ガウスを介した 1 つのビデオからのリアルな人間のアバターモデリングを目指して

論文: https://arxiv.org/abs/2312.02134
コード: https://github.com/huliangxiao/GaussianAvatar

GaussianEditor: ガウススプラッティングによる迅速かつ制御可能な 3D 編集

論文: https://arxiv.org/abs/2311.14521
コード: https://github.com/buaacyw/GaussianEditor

変形可能な 3D ガウスによる高忠実度の単眼ダイナミックシーン再構築

ホームページ: https://ingra14m.github.io/Deformable-Gaussians/
論文: https://arxiv.org/abs/2309.13101
コード: https://github.com/ingra14m/Deformable-3D-Gaussians

SC-GS: 編集可能な動的シーン向けのスパース制御ガウススプラッティング

ホームページ: https://yihua7.github.io/SC-GS-web/
論文: https://arxiv.org/abs/2312.14937
コード: https://github.com/yihua7/SC-GS

リアルタイムの動的ビュー合成のための時空ガウス特徴量スプラッティング

ホームページ: https://oppo-us-research.github.io/SpacetimeGaussians-website/
論文: https://arxiv.org/abs/2312.16812
コード: https://github.com/oppo-us-research/SpacetimeGaussians

DNGaussian: グローバル-ローカル深度正規化によるスパースビュー 3D ガウス放射輝度フィールドの最適化

ホームページ: https://fictionarry.github.io/DNGaussian/
論文: https://arxiv.org/abs/2403.06912
コード: https://github.com/Fictionarry/DNGaussian

リアルタイムのダイナミックなシーンレンダリングのための 4D ガウススプラッティング

論文: https://arxiv.org/abs/2310.08528
コード: https://github.com/hustvl/4DGaussians

GaussianDreamer: 2D および 3D 拡散モデルのブリッジングによるテキストから 3D ガウスへの高速生成

論文: https://arxiv.org/abs/2310.08529
コード: https://github.com/hustvl/GaussianDreamer

アバター

GaussianAvatar: アニメーション化可能な 3D ガウスを介した 1 つのビデオからのリアルな人間のアバターモデリングを目指して

論文: https://arxiv.org/abs/2312.02134
コード: https://github.com/huliangxiao/GaussianAvatar

ヘッドマウントセンサーからリアルタイムにシミュレートされたアバター

ホームページ: https://www.zhengyiluo.com/SimXR/
論文: https://arxiv.org/abs/2403.06862

バックボーン

RepViT: ViT の観点からモバイル CNN を再考する

論文: https://arxiv.org/abs/2307.09283
コード: https://github.com/THU-MIG/RepViT

TransNext: ビジョントランスフォーマー向けの堅牢な中心窩視覚知覚

論文: https://arxiv.org/abs/2311.17132
コード: https://github.com/DaiShiResearch/TransNeXt

クリップ

Alpha-CLIP：好きな場所に集中できるCLIPモデル

論文: https://arxiv.org/abs/2312.03818
コード: https://github.com/SunzeY/AlphaCLIP

FairCLIP: 視覚言語学習における公平性の活用

論文: https://arxiv.org/abs/2403.19949
コード: https://github.com/Harvard-Ophysical-AI-Lab/FairCLIP

前

身体化されたAI

EmbodiedScan: 身体化された AI に向けた総合的なマルチモーダル 3D 認識スイート

ホームページ: https://tai-wang.github.io/embodiedscan/
論文: https://arxiv.org/abs/2312.16170
コード: https://github.com/OpenRobotLab/EmbodiedScan

MP5: アクティブな知覚による Minecraft のマルチモーダルなオープンエンドの身体化システム

ホームページ: https://iranqin.github.io/MP5.github.io/
論文: https://arxiv.org/abs/2312.07472
コード: https://github.com/IranQin/MP5

LEMON: 2D 画像から 3D の人間とオブジェクトのインタラクション関係を学習する

論文: https://arxiv.org/abs/2312.08963
コード: https://github.com/yyvhang/lemon_3d

ガン

OCR

OCR のスケーリング則に関する実証的研究

論文: https://arxiv.org/abs/2401.00028
コード: https://github.com/large-ocr-model/large-ocr-model.github.io

ODM: シーンのテキスト検出とスポッティングのためのテキストと画像のさらなる位置合わせ事前トレーニングアプローチ

論文: https://arxiv.org/abs/2403.00303
コード: https://github.com/PriNing/ODM

NRF

PIE-NeRF?: NeRF を使用した物理ベースのインタラクティブな弾性力学

論文: https://arxiv.org/abs/2311.13099
コード: https://github.com/FYTalon/pienerf/

DETR

DETR はリアルタイムの物体検出で YOLO を上回る

論文: https://arxiv.org/abs/2304.08069
コード: https://github.com/lyuwenyu/RT-DETR

Salience DETR: 階層的顕著性フィルタリングの改良による検出トランスフォーマーの強化

論文: https://arxiv.org/abs/2403.16131
コード: https://github.com/xiuqhou/Salience-DETR

プロンプト

マルチモーダル大規模言語モデル (MLLM)

mPLUG-Owl2: モダリティコラボレーションによるマルチモーダル大規模言語モデルの革命

論文: https://arxiv.org/abs/2311.04257
コード: https://github.com/X-PLUG/mPLUG-Owl/tree/main/mPLUG-Owl2

マルチモーダル LLM のためのリンクコンテキスト学習

論文: https://arxiv.org/abs/2308.07891
コード: https://github.com/isekai-portal/Link-Context-Learning/tree/main

OPERA: 過剰信頼ペナルティと遡及割り当てによるマルチモーダル大規模言語モデルの幻覚の軽減

論文: https://arxiv.org/abs/2311.17911
コード: https://github.com/sekiw/OPERA

大規模なマルチモーダルモデルで任意の視覚的プロンプトを理解できるようにする

ホームページ: https://vip-llava.github.io/
論文: https://arxiv.org/abs/2312.00784

ピンク: マルチモーダル llms の参照理解の力を明らかにする

論文: https://arxiv.org/abs/2310.00582
コード: https://github.com/SY-Xuan/Pink

Chat-UniVi: 統一された視覚表現により、大規模な言語モデルに画像とビデオの理解を強化します

論文: https://arxiv.org/abs/2311.08046
コード: https://github.com/PKU-YuanGroup/Chat-UniVi

OneLLM: すべてのモダリティを言語に合わせるための 1 つのフレームワーク

論文: https://arxiv.org/abs/2312.03700
コード: https://github.com/csuhan/OneLLM

大規模言語モデル (LLM)

VTimeLLM: LLM がビデオの瞬間を把握できるようにする

論文: https://arxiv.org/abs/2311.18445
コード: https://github.com/huangb23/VTimeLLM

NAS

ReID（再識別）

マジックトークン: マルチモーダルオブジェクトの再識別用に多様なトークンを選択

論文: https://arxiv.org/abs/2403.10254
コード: https://github.com/924973292/EDITOR

テキストから画像への人物再識別のためのノイズ対応学習

論文: https://arxiv.org/abs/2308.09911
コード: https://github.com/QinYang79/RDE

普及モデル

InstanceDiffusion: 画像生成のためのインスタンスレベルの制御

ホームページ: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
論文: https://arxiv.org/abs/2402.03290
コード: https://github.com/frank-xwang/InstanceDiffusion

残留ノイズ除去拡散モデル

論文: https://arxiv.org/abs/2308.13712
コード: https://github.com/nachifur/RDDM

DeepCache: 無料で拡散モデルを加速

論文: https://arxiv.org/abs/2312.00858
コード: https://github.com/horseee/DeepCache

DEADiff: もつれのない表現による効率的な様式化拡散モデル

ホームページ: https://tianhao-qi.github.io/DEADiff/
論文: https://arxiv.org/abs/2403.06951
コード: https://github.com/Tianhao-Qi/DEADiff_code

SVGDreamer: 拡散モデルを使用したテキストガイド付き SVG 生成

論文: https://arxiv.org/abs/2312.16476
コード: https://ximinng.github.io/SVGDreamer-project/

InteractDiffusion: テキストから画像への拡散モデルのインタラクション制御

論文: https://arxiv.org/abs/2312.05849
コード: https://github.com/jiuntian/interactdiffusion

MMA 拡散: 拡散モデルに対するマルチモーダル攻撃

論文: https://arxiv.org/abs/2311.17516
コード: https://github.com/yangyijune/MMA-Diffusion

VMC: テキストからビデオへの拡散モデルの時間的注意適応を使用したビデオモーションのカスタマイズ

ホメオエイジ: https://video-motion-customization.github.io/
論文: https://arxiv.org/abs/2312.00845
コード: https://github.com/HyeonHo99/Video-Motion-Customization

ビジョントランスフォーマー

TransNext: ビジョントランスフォーマー向けの堅牢な中心窩視覚知覚

論文: https://arxiv.org/abs/2311.17132
コード: https://github.com/DaiShiResearch/TransNeXt

RepViT: ViT の観点からモバイル CNN を再検討する

論文: https://arxiv.org/abs/2307.09283
コード: https://github.com/THU-MIG/RepViT

トークン拡張による Transformer の一般的で効率的なトレーニング

論文: https://arxiv.org/abs/2404.00672
コード: https://github.com/Osilly/TokenExpansion

視覚言語

PromptKD: 視覚言語モデルの教師なしプロンプト蒸留

論文: https://arxiv.org/abs/2403.02781
コード: https://github.com/zhengli97/PromptKD

FairCLIP: 視覚言語学習における公平性の活用

論文: https://arxiv.org/abs/2403.19949
コード: https://github.com/Harvard-Ophysical-AI-Lab/FairCLIP

物体検出

DETR はリアルタイムの物体検出で YOLO を上回る

論文: https://arxiv.org/abs/2304.08069
コード: https://github.com/lyuwenyu/RT-DETR

ゼロショット昼夜ドメイン適応による物体検出の強化

論文: https://arxiv.org/abs/2312.01220
コード: https://github.com/ZPDu/Boosting-Object-Detection-with-Zero-Shot-Day-Night-Domain-Adaptation

YOLO-World: リアルタイムのオープンボキャブラリーオブジェクト検出

論文: https://arxiv.org/abs/2401.17270
コード: https://github.com/AILab-CVC/YOLO-World

Salience DETR: 階層的顕著性フィルタリングの改良による検出トランスフォーマーの強化

論文: https://arxiv.org/abs/2403.16131
コード: https://github.com/xiuqhou/Salience-DETR

異常検出

オープンセットの教師あり異常検出のための異常異質性学習

論文: https://arxiv.org/abs/2310.12790
コード: https://github.com/mala-lab/AHL

オブジェクト追跡

複数オブジェクト追跡のための軌跡のロングテール分布を詳しく調べる

論文: https://arxiv.org/abs/2403.04700
コード: https://github.com/chen-si-jia/Trajectory-Long-tail-Distribution-for-MOT

セマンティックセグメンテーション

より強力、より少なく、より優れた: ドメイン一般化セマンティックセグメンテーションのための Vision Foundation モデルの活用

論文: https://arxiv.org/abs/2312.04265
コード: https://github.com/w1oves/Rein

SED: オープンボキャブラリーのセマンティックセグメンテーションのためのシンプルなエンコーダ/デコーダ

論文: https://arxiv.org/abs/2311.15537
コード: https://github.com/xb534/SED

医用画像

特徴の再埋め込み: 計算病理学における基礎モデルレベルのパフォーマンスに向けて

論文: https://arxiv.org/abs/2402.17228
コード: https://github.com/DearCaat/RRT-MIL

VoCo: 3D 医用画像解析のためのシンプルかつ効果的なボリューム対照学習フレームワーク

論文: https://arxiv.org/abs/2402.17300
コード: https://github.com/Luffy03/VoCo

ChAda-ViT : 異種顕微鏡画像の共同表現学習のためのチャネル適応型注意

論文: https://arxiv.org/abs/2311.15264
コード: https://github.com/nicoboou/chada_vit

医療画像のセグメンテーション

自動運転

UniPAD: 自動運転のための普遍的な事前トレーニングパラダイム

論文: https://arxiv.org/abs/2310.08370
コード: https://github.com/Nightmare-n/UniPAD

Cam4DOcc: 自動運転アプリケーションにおけるカメラのみの 4D 占有予測のベンチマーク

論文: https://arxiv.org/abs/2311.17663
コード: https://github.com/haomo-ai/Cam4DOcc

オンライン 3D シーン認識用のメモリベースのアダプター

論文: https://arxiv.org/abs/2403.06974
コード: https://github.com/xuxw98/Online3D

コンテキストインスタンスクエリを使用して 3D セマンティックシーンの補完をシンフォナイズする

論文: https://arxiv.org/abs/2306.15670
コード: https://github.com/hustvl/Symphonies

沿道協力の認識のための実世界の大規模データセット

論文: https://arxiv.org/abs/2403.10145
コード: https://github.com/AIR-THU/DAIR-RCooper

自動運転のためのシングルビューとマルチビューの深度の適応的融合

論文: https://arxiv.org/abs/2403.07535
コード: https://github.com/Junda24/AFNet

TSP6K データセットによる交通シーンの解析

論文: https://arxiv.org/pdf/2303.02835.pdf
コード: https://github.com/PengtaoJiang/TSP6K

3D 点群 (3D-Point-Cloud)

3D オブジェクトの検出

PTT: 効率的な時間的 3D オブジェクト検出のための点軌跡変換器

論文: https://arxiv.org/abs/2312.08371
コード: https://github.com/kuanchihhuang/PTT

UniMODE: 統合された単眼 3D オブジェクト検出

論文: https://arxiv.org/abs/2402.18573

3D セマンティックセグメンテーション

画像編集

Edit One for All: インタラクティブなバッチ画像編集

ホームページ: https://thaoshibe.github.io/edit-one-for-all
論文: https://arxiv.org/abs/2401.10219
コード: https://github.com/thaoshibe/edit-one-for-all

ビデオ編集

MaskINT: 補間非自己回帰マスクトランスフォーマーによるビデオ編集

ホームページ: https://maskint.github.io
論文: https://arxiv.org/abs/2312.12468

低レベルのビジョン

残留ノイズ除去拡散モデル

論文: https://arxiv.org/abs/2308.13712
コード: https://github.com/nachifur/RDDM

事前トレーニングされたモデルからの事前分布による画像復元の強化

論文: https://arxiv.org/abs/2403.06793

超解像

SeD: 画像超解像度のためのセマンティック認識ディスクリミネーター

論文: https://arxiv.org/abs/2402.19387
コード: https://github.com/lbc12345/SeD

APISR: 現実世界のアニメ超解像度にインスピレーションを得たアニメ制作

論文: https://arxiv.org/abs/2403.01598
コード: https://github.com/Kiteretsu77/APISR

ノイズ除去

画像のノイズ除去

3D人物姿勢推定

効率的なトランスフォーマーベースの 3D 人間の姿勢推定のための砂時計トークナイザー

論文: https://arxiv.org/abs/2311.12028
コード: https://github.com/NationalGAILab/HoT

画像生成

InstanceDiffusion: 画像生成のためのインスタンスレベルの制御

ホームページ: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
論文: https://arxiv.org/abs/2402.03290
コード: https://github.com/frank-xwang/InstanceDiffusion

ECLIPSE: 画像生成のためのリソース効率の高いテキストから画像への事前変換

ホームページ: https://eclipse-t2i.vercel.app/
論文: https://arxiv.org/abs/2312.04655
コード: https://github.com/eclipse-t2i/eclipse-inference

Instruct-Imagen: マルチモーダル命令による画像生成

論文: https://arxiv.org/abs/2401.01952

残留ノイズ除去拡散モデル

論文: https://arxiv.org/abs/2308.13712
コード: https://github.com/nachifur/RDDM

UniGS: 画像生成とセグメンテーションのための統合表現

論文: https://arxiv.org/abs/2312.01985

テキストから画像への合成のためのマルチインスタンス生成コントローラー

論文: https://arxiv.org/abs/2402.05408
コード: https://github.com/limuloo/migc

SVGDreamer: 拡散モデルを使用したテキストガイド付き SVG 生成

論文: https://arxiv.org/abs/2312.16476
コード: https://ximinng.github.io/SVGDreamer-project/

InteractDiffusion: テキストから画像への拡散モデルのインタラクション制御

論文: https://arxiv.org/abs/2312.05849
コード: https://github.com/jiuntian/interactdiffusion

Ranni: 正確なプロンプトフォローのためにテキストから画像への拡散を制御する

論文: https://arxiv.org/abs/2311.17002
コード: https://github.com/ali-vilab/Ranni

ビデオ生成

Vlogger: あなたの夢を Vlog にしましょう

論文: https://arxiv.org/abs/2401.09414
コード: https://github.com/Vchitect/Vlogger

VBench: ビデオ生成モデル用の包括的なベンチマークスイート

ホームページ: https://vchitect.github.io/VBench-project/
論文: https://arxiv.org/abs/2311.17982
コード: https://github.com/Vchitect/VBench

VMC: テキストからビデオへの拡散モデルの時間的注意適応を使用したビデオモーションのカスタマイズ

ホメオエイジ: https://video-motion-customization.github.io/
論文: https://arxiv.org/abs/2312.00845
コード: https://github.com/HyeonHo99/Video-Motion-Customization

3D生成

CityDreamer: 境界のない 3D 都市の構成生成モデル

ホームページ: https://haozhexie.com/project/city-dreamer/
論文: https://arxiv.org/abs/2309.00610
コード: https://github.com/hzxie/city-dreamer

LucidDreamer: インターバルスコアマッチングによる高忠実度のテキストから 3D の生成に向けて

論文: https://arxiv.org/abs/2311.11284
コード: https://github.com/EnVision-Research/LucidDreamer

ビデオの理解

MVBench: 包括的なマルチモーダルビデオ理解ベンチマーク

論文: https://arxiv.org/abs/2311.17005
コード: https://github.com/OpenGVLab/Ask-Anything/tree/main/video_chat2

知識の蒸留

知識の蒸留におけるロジットの標準化

論文: https://arxiv.org/abs/2403.01427
コード: https://github.com/sunshangquan/logit-standardization-KD

ミニマックス拡散による効率的なデータセットの蒸留

論文: https://arxiv.org/abs/2311.15529
コード: https://github.com/vimar-gu/MinimaxDiffusion

ステレオマッチング

ステレオマッチングのためのニューラルマルコフランダムフィールド

論文: https://arxiv.org/abs/2403.11193
コード: https://github.com/aeolusguan/NMRF

シーングラフの生成

HiKER-SGG: 階層的知識により強化された堅牢なシーングラフ生成

ホームページ: https://zhangce01.github.io/HiKER-SGG/
論文: https://arxiv.org/abs/2403.12033
コード: https://github.com/zhangce01/HiKER-SGG

ビデオ品質評価

KVQ: 短編ビデオのカレイドスコープビデオ品質評価

ホームページ: https://lixinustc.github.io/projects/KVQ/
論文: https://arxiv.org/abs/2402.07220
コード: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024

データセット

沿道協力の認識のための実世界の大規模データセット

論文: https://arxiv.org/abs/2403.10145
コード: https://github.com/AIR-THU/DAIR-RCooper

TSP6K データセットによる交通シーンの解析

論文: https://arxiv.org/pdf/2303.02835.pdf
コード: https://github.com/PengtaoJiang/TSP6K

その他

次のトークン予測としてのオブジェクト認識

論文: https://arxiv.org/abs/2312.02142
コード: https://github.com/kaiyuyue/nxtp

ParameterNet: モバイルネットワークの大規模なビジュアル事前トレーニングに必要なのはパラメーターだけです

論文: https://arxiv.org/abs/2306.14525
コード: https://parameternet.github.io/

位置エンコーディングをブレンドしたシームレスな人間のモーション合成

論文: https://arxiv.org/abs/2402.15509
コード: https://github.com/BarqueroGerman/FlowMDM

LL3DA: Omni-3D の理解、推論、計画のためのビジュアルインタラクティブな命令チューニング

ホームページ: https://ll3da.github.io/
論文: https://arxiv.org/abs/2311.18651
コード: https://github.com/Open3DA/LL3DA

CLOVA: ツールの使用と更新を備えたクローズドループのビジュアルアシスタント

ホームページ: https://clova-tool.github.io/
論文: https://arxiv.org/abs/2312.10908

MoMask: 3D 人間の動きの生成マスクモデリング

論文: https://arxiv.org/abs/2312.00063
コード: https://github.com/EricGuo5513/momask-codes

アモーダルな地上の真実と野生の完成

ホームページ: https://www.robots.ox.ac.uk/~vgg/research/amodal/
論文: https://arxiv.org/abs/2312.17247
コード: https://github.com/Championchess/Amodal-Completion-in-the-Wild

一貫性のある説明による視覚的根拠の向上

論文: https://arxiv.org/abs/2312.04554
コード: https://github.com/uvavision/SelfEQ

ImageNet-D: 拡散合成オブジェクトに対するニューラルネットワークの堅牢性のベンチマーク

ホームページ: https://chenshuang-zhang.github.io/imagenet_d/
論文: https://arxiv.org/abs/2403.18775
コード: https://github.com/chenshuang-zhang/imagenet_d

合成人間の集団活動から学ぶ

ホームページ: https://cjerry1243.github.io/M3Act/
論文 https://arxiv.org/abs/2306.16772
コード: https://github.com/cjerry1243/M3Act

被験者を超えた脳解読フレームワーク

ホームページ: https://littlepure2333.github.io/MindBridge/
論文: https://arxiv.org/abs/2404.07850
コード: https://github.com/littlepure2333/MindBridge

低ランクの専門家の混合によるマルチタスクの高密度予測

論文: https://arxiv.org/abs/2403.17749
コード: https://github.com/YuqiYang213/MLoRE

一般化されたカテゴリ発見のための対照平均シフト学習

ホームページ: https://postech-cvlab.github.io/cms/
論文: https://arxiv.org/abs/2404.09451
コード: https://github.com/sua-choi/CMS

拡大する

追加情報

バージョン 1.0.0
タイプパイソン
更新時間 2024-12-21
サイズ 117.95KB
から Github

CVPR2024 Papers with Code

CVPR 2024 論文およびオープンソース プロジェクト コレクション (コード付き論文)

[CVPR 2024 オープンソース論文ディレクトリ]

3DGS(ガウススプラッティング)

アバター

バックボーン

クリップ

前

身体化されたAI

ガン

OCR

NRF

DETR

プロンプト

マルチモーダル大規模言語モデル (MLLM)

大規模言語モデル (LLM)

NAS

ReID（再識別）

普及モデル

ビジョントランスフォーマー

視覚言語

物体検出

異常検出

オブジェクト追跡

セマンティックセグメンテーション

医用画像

医療画像のセグメンテーション

自動運転

3D 点群 (3D-Point-Cloud)

3D オブジェクトの検出

3D セマンティック セグメンテーション

画像編集

ビデオ編集

低レベルのビジョン

超解像

ノイズ除去

画像のノイズ除去

3D人物姿勢推定

画像生成

ビデオ生成

3D生成

ビデオの理解

知識の蒸留

ステレオマッチング

シーングラフの生成

ビデオ品質評価

データセット

その他

CVPR 2024 論文およびオープンソースプロジェクトコレクション (コード付き論文)

3D セマンティックセグメンテーション