การตัดสินใจ CVPR 2024 พร้อมใช้งานแล้วบน OpenReview!
หมายเหตุ 1: เรายินดีให้ทุกคนส่งประเด็นและแบ่งปันเอกสาร CVPR 2024 และโครงการโอเพ่นซอร์ส!
หมายเหตุ 2: สำหรับรายละเอียดเกี่ยวกับเอกสารจากการประชุม CV ครั้งก่อนๆ และเอกสาร CV คุณภาพสูงอื่นๆ และบทวิจารณ์ที่ครอบคลุม โปรดดู: https://github.com/amusi/daily-paper-computer-vision
- อีซีซีวี2024
- ซีพีอาร์ 2023
ยินดีต้อนรับสู่สแกนโค้ด QR เพื่อเข้าร่วม [CVer Academic Exchange Group] ซึ่งเป็นโลกความรู้ด้านคอมพิวเตอร์วิทัศน์ AI ที่ใหญ่ที่สุด! อัปเดตทุกวัน แบ่งปันสื่อการเรียนรู้ใหม่ล่าสุดและล้ำสมัยที่สุดในคอมพิวเตอร์วิทัศน์ การวาดภาพด้วย AI การประมวลผลภาพ การเรียนรู้เชิงลึก การขับขี่อัตโนมัติ การสร้างภาพทางการแพทย์ และ AIGC โดยเร็วที่สุด เริ่มเรียนรู้!
Scaffold-GS: Gaussians 3 มิติที่มีโครงสร้างสำหรับการเรนเดอร์แบบ View-Adaptive
GPS-Gaussian: การสาดแบบเกาส์เซียน 3 มิติแบบพิกเซลที่ชาญฉลาดสำหรับการสังเคราะห์มุมมองนวนิยายมนุษย์แบบเรียลไทม์
GaussianAvatar: สู่การสร้างแบบจำลองอวาตาร์มนุษย์ที่สมจริงจากวิดีโอเดียวผ่าน Gaussians 3D แบบเคลื่อนไหวได้
GaussianEditor: การแก้ไข 3D ที่รวดเร็วและควบคุมได้ด้วย Gaussian Splatting
Gaussians 3D ที่เปลี่ยนรูปได้สำหรับการสร้างฉากไดนามิกตาข้างเดียวที่มีความเที่ยงตรงสูง
SC-GS: การกระเซ็นแบบเกาส์แบบควบคุมแบบกระจัดกระจายสำหรับฉากไดนามิกที่แก้ไขได้
การแบ่งคุณลักษณะ Gaussian ของกาลอวกาศสำหรับการสังเคราะห์มุมมองไดนามิกแบบเรียลไทม์
DNGaussian: การเพิ่มประสิทธิภาพฟิลด์ Radiance Gaussian 3D แบบ Sparse-View ด้วยการปรับความลึกในระดับสากล-ท้องถิ่น
4D Gaussian Splatting สำหรับการแสดงฉากไดนามิกแบบเรียลไทม์
GaussianDreamer: การสร้างที่รวดเร็วจากข้อความเป็น Gaussians 3D โดยการเชื่อมโยงโมเดลการแพร่กระจาย 2D และ 3D
GaussianAvatar: สู่การสร้างแบบจำลองอวาตาร์มนุษย์ที่สมจริงจากวิดีโอเดียวผ่าน Gaussians 3D แบบเคลื่อนไหวได้
อวตารจำลองแบบเรียลไทม์จากเซ็นเซอร์ที่ติดตั้งบนศีรษะ
RepViT: มาเยือน CNN บนมือถืออีกครั้งจากมุมมองของ ViT
TransNeXt: การรับรู้ภาพ Foveal ที่แข็งแกร่งสำหรับ Vision Transformers
Alpha-CLIP: โมเดลคลิปที่เน้นทุกที่ที่คุณต้องการ
FairCLIP: ควบคุมความเป็นธรรมในการเรียนรู้ภาษาวิสัยทัศน์
EmbodiedScan: ชุดการรับรู้ 3D Multi-Modal แบบองค์รวมสู่ AI ที่เป็นตัวเป็นตน
MP5: ระบบเป็นตัวเป็นตนแบบเปิดหลายรูปแบบใน Minecraft ผ่านการรับรู้ที่ใช้งานอยู่
LEMON: การเรียนรู้ความสัมพันธ์ระหว่างมนุษย์และวัตถุ 3 มิติจากภาพ 2 มิติ
การศึกษาเชิงประจักษ์ของกฎมาตราส่วนสำหรับ OCR
ODM: แนวทางการฝึกอบรมล่วงหน้าสำหรับการจัดตำแหน่งข้อความและภาพเพิ่มเติมสำหรับการตรวจจับและการจำแนกข้อความในฉาก
PIE-NeRF?: อีลาสโตไดนามิกเชิงโต้ตอบตามหลักฟิสิกส์พร้อม NeRF
DETR เอาชนะ YOLO ในการตรวจจับวัตถุแบบเรียลไทม์
Salience DETR: การปรับปรุงหม้อแปลงตรวจจับด้วยการปรับแต่งการกรอง Salience แบบลำดับชั้น
mPLUG-Owl2: ปฏิวัติโมเดลภาษาขนาดใหญ่แบบ Multi-modal ด้วยการทำงานร่วมกันแบบ Modality
การเรียนรู้ตามบริบทลิงก์สำหรับ LLM หลายรูปแบบ
OPERA: การบรรเทาอาการประสาทหลอนในแบบจำลองภาษาขนาดใหญ่หลายรูปแบบผ่านการลงโทษที่น่าเชื่อถือและการจัดสรรการย้อนหลัง
การสร้างโมเดลหลายรูปแบบขนาดใหญ่ให้เข้าใจการแจ้งด้วยภาพตามอำเภอใจ
สีชมพู: เผยพลังของความเข้าใจในการอ้างอิงสำหรับ llms หลายรูปแบบ
Chat-UniVi: การแสดงภาพแบบครบวงจรเสริมพลังให้กับโมเดลภาษาขนาดใหญ่พร้อมความเข้าใจเกี่ยวกับรูปภาพและวิดีโอ
OneLLM: กรอบงานเดียวในการจัดรูปแบบทั้งหมดให้สอดคล้องกับภาษา
VTimeLLM: เสริมศักยภาพ LLM เพื่อจับภาพช่วงเวลาวิดีโอ
โทเค็นเวทย์มนตร์: เลือกโทเค็นที่หลากหลายสำหรับการระบุวัตถุหลายรูปแบบ
การเรียนรู้การติดต่อสื่อสารที่มีเสียงดังเพื่อระบุตัวตนบุคคลจากข้อความเป็นรูปภาพอีกครั้ง
บทความ: https://arxiv.org/abs/2308.09911
รหัส: https://github.com/QinYang79/RDE
InstanceDiffusion: การควบคุมระดับอินสแตนซ์สำหรับการสร้างภาพ
หน้าแรก: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
บทความ: https://arxiv.org/abs/2402.03290
รหัส: https://github.com/frank-xwang/InstanceDiffusion
แบบจำลองการแพร่กระจายของการลดสัญญาณรบกวนตกค้าง
DeepCache: เร่งโมเดลการแพร่กระจายฟรี
DEADiff: โมเดลการแพร่กระจายของสไตไลเซชันที่มีประสิทธิภาพพร้อมการนำเสนอที่ไม่พันกัน
หน้าแรก: https://tianhao-qi.github.io/DEADiff/
บทความ: https://arxiv.org/abs/2403.06951
รหัส: https://github.com/Tianhao-Qi/DEADiff_code
SVGDreamer: การสร้าง SVG แบบมีข้อความแนะนำพร้อมโมเดลการแพร่กระจาย
InteractDiffusion: การควบคุมการโต้ตอบสำหรับโมเดลการแพร่กระจายข้อความเป็นรูปภาพ
MMA-Diffusion: การโจมตีหลายรูปแบบในแบบจำลองการแพร่กระจาย
VMC: การปรับแต่งภาพเคลื่อนไหวโดยใช้การปรับความสนใจชั่วคราวสำหรับโมเดลการแพร่กระจายข้อความเป็นวิดีโอ
TransNeXt: การรับรู้ภาพ Foveal ที่แข็งแกร่งสำหรับ Vision Transformers
RepViT: มาเยือน CNN บนมือถืออีกครั้งจากมุมมองของ ViT
การฝึกอบรมทั่วไปและมีประสิทธิภาพสำหรับ Transformer ผ่านการขยาย Token
PromptKD: การกลั่นแบบทันทีโดยไม่มีผู้ดูแลสำหรับโมเดลภาษาวิชั่น
FairCLIP: ควบคุมความเป็นธรรมในการเรียนรู้ภาษาวิสัยทัศน์
DETR เอาชนะ YOLO ในการตรวจจับวัตถุแบบเรียลไทม์
เพิ่มประสิทธิภาพการตรวจจับวัตถุด้วยการปรับโดเมนกลางวันและกลางคืนแบบ Zero-Shot
YOLO-World: การตรวจจับวัตถุคำศัพท์เปิดแบบเรียลไทม์
Salience DETR: การปรับปรุงหม้อแปลงตรวจจับด้วยการปรับแต่งการกรอง Salience แบบลำดับชั้น
การเรียนรู้ความหลากหลายทางความผิดปกติสำหรับการตรวจจับความผิดปกติภายใต้การดูแลแบบเปิดชุด
เจาะลึกการกระจายวิถีแบบหางยาวสำหรับการติดตามวัตถุหลายชิ้น
แข็งแกร่งขึ้น น้อยลง และเหนือกว่า: การใช้แบบจำลองพื้นฐานวิสัยทัศน์สำหรับการแบ่งส่วนความหมายทั่วไปของโดเมน
SED: ตัวเข้ารหัส-ตัวถอดรหัสอย่างง่ายสำหรับการแบ่งส่วนความหมายคำศัพท์แบบเปิด
การฝังคุณลักษณะใหม่: สู่ประสิทธิภาพระดับแบบจำลองพื้นฐานในพยาธิวิทยาคอมพิวเตอร์
VoCo: กรอบการเรียนรู้เชิงเปรียบเทียบเชิงปริมาตรที่เรียบง่ายแต่มีประสิทธิภาพสำหรับการวิเคราะห์ภาพทางการแพทย์ 3 มิติ
ชฎา-วิท : Channel Adaptive Attention for Joint Representation Learning of Heterogeneous Microscopy Image
UniPAD: กระบวนทัศน์ก่อนการฝึกอบรมสากลสำหรับการขับขี่อัตโนมัติ
Cam4DOcc: เกณฑ์มาตรฐานสำหรับการคาดการณ์อัตราการเข้าพัก 4 มิติเฉพาะกล้องในแอปพลิเคชันการขับขี่อัตโนมัติ
อะแดปเตอร์ที่ใช้หน่วยความจำสำหรับการรับรู้ฉาก 3D ออนไลน์
ประสานฉากความหมาย 3 มิติให้สมบูรณ์ด้วยการสืบค้นอินสแตนซ์ตามบริบท
ชุดข้อมูลขนาดใหญ่ในโลกแห่งความเป็นจริงสำหรับการรับรู้สหกรณ์ริมถนน
การผสมผสานแบบปรับได้ของความลึกมุมมองเดียวและหลายมุมมองสำหรับการขับขี่แบบอัตโนมัติ
การแยกวิเคราะห์ฉากจราจรผ่านชุดข้อมูล TSP6K
ปตท.: หม้อแปลงจุดวิถีสำหรับการตรวจจับวัตถุ 3 มิติชั่วคราวอย่างมีประสิทธิภาพ
UniMODE: การตรวจจับวัตถุ 3 มิติแบบตาข้างเดียวแบบครบวงจร
แก้ไขหนึ่งเดียวสำหรับทั้งหมด: การแก้ไขภาพชุดเชิงโต้ตอบ
MaskINT: การตัดต่อวิดีโอผ่าน Interpolative Non-autoregressive Masked Transformers
หน้าแรก: https://maskint.github.io
บทความ: https://arxiv.org/abs/2312.12468
แบบจำลองการแพร่กระจายของการลดสัญญาณรบกวนตกค้าง
ส่งเสริมการฟื้นฟูภาพผ่าน Priors จากโมเดลที่ผ่านการฝึกอบรมมาแล้ว
SeD: Semantic-Aware Discriminator สำหรับรูปภาพที่มีความละเอียดสูงสุด
APISR: การผลิตอนิเมะเป็นแรงบันดาลใจให้กับอนิเมะในโลกแห่งความเป็นจริง
Tokenizer นาฬิกาทรายเพื่อการประมาณท่าทางมนุษย์ 3 มิติที่ใช้หม้อแปลงอย่างมีประสิทธิภาพ
InstanceDiffusion: การควบคุมระดับอินสแตนซ์สำหรับการสร้างภาพ
หน้าแรก: https://people.eecs.berkeley.edu/~xdwang/projects/InstDiff/
บทความ: https://arxiv.org/abs/2402.03290
รหัส: https://github.com/frank-xwang/InstanceDiffusion
ECLIPSE: การแปลงข้อความเป็นรูปภาพที่มีประสิทธิภาพทรัพยากรก่อนสำหรับการสร้างรูปภาพ
หน้าแรก: https://eclipse-t2i.vercel.app/
บทความ: https://arxiv.org/abs/2312.04655
รหัส: https://github.com/eclipse-t2i/eclipse-inference
Instruct-Imagen: การสร้างอิมเมจพร้อมคำสั่งแบบหลายกิริยา
แบบจำลองการแพร่กระจายของการลดสัญญาณรบกวนตกค้าง
UniGS: การแสดงแบบรวมสำหรับการสร้างและการแบ่งส่วนภาพ
ตัวควบคุมการสร้างอินสแตนซ์หลายอินสแตนซ์สำหรับการสังเคราะห์ข้อความเป็นรูปภาพ
SVGDreamer: การสร้าง SVG แบบมีข้อความแนะนำพร้อมโมเดลการแพร่กระจาย
InteractDiffusion: การควบคุมการโต้ตอบสำหรับโมเดลการแพร่กระจายข้อความเป็นรูปภาพ
Ranni: ฝึกฝนการแพร่กระจายข้อความเป็นภาพเพื่อการติดตามพร้อมท์ที่แม่นยำ
Vlogger: ทำความฝันของคุณให้เป็น Vlog
VBench: ชุดเกณฑ์มาตรฐานที่ครอบคลุมสำหรับโมเดลการสร้างวิดีโอ
VMC: การปรับแต่งภาพเคลื่อนไหวโดยใช้การปรับความสนใจชั่วคราวสำหรับโมเดลการแพร่กระจายข้อความเป็นวิดีโอ
CityDreamer: แบบจำลองการสร้างองค์ประกอบของเมือง 3 มิติที่ไร้ขอบเขต
LucidDreamer: สู่การสร้างข้อความเป็น 3D ที่มีความแม่นยำสูงผ่านการจับคู่คะแนนตามช่วงเวลา
MVBench: เกณฑ์มาตรฐานการทำความเข้าใจวิดีโอหลายรูปแบบที่ครอบคลุม
การกำหนดมาตรฐาน Logit ในการกลั่นความรู้
การกลั่นชุดข้อมูลที่มีประสิทธิภาพผ่านการแพร่กระจายขั้นต่ำสุด
Neural Markov Random Field สำหรับการจับคู่สเตอริโอ
HiKER-SGG: ความรู้แบบลำดับชั้นช่วยเพิ่มการสร้างกราฟฉากที่แข็งแกร่ง
KVQ: การประเมินคุณภาพวิดีโอคาไลโดสโคปสำหรับวิดีโอแบบสั้น
หน้าแรก: https://lixinustc.github.io/projects/KVQ/
บทความ: https://arxiv.org/abs/2402.07220
รหัส: https://github.com/lixinustc/KVQ-Challenge-CVPR-NTIRE2024
ชุดข้อมูลขนาดใหญ่ในโลกแห่งความเป็นจริงสำหรับการรับรู้สหกรณ์ริมถนน
การแยกวิเคราะห์ฉากจราจรผ่านชุดข้อมูล TSP6K
การรับรู้วัตถุเป็นการทำนายโทเค็นถัดไป
ParameterNet: พารามิเตอร์คือสิ่งที่คุณต้องการสำหรับการฝึกอบรมล่วงหน้าด้วยภาพขนาดใหญ่ของเครือข่ายมือถือ
องค์ประกอบการเคลื่อนไหวของมนุษย์ไร้รอยต่อพร้อมการเข้ารหัสตำแหน่งแบบผสมผสาน
LL3DA: การปรับแต่งคำสั่งแบบโต้ตอบด้วยภาพสำหรับการทำความเข้าใจ การใช้เหตุผล และการวางแผน Omni-3D
หน้าแรก: https://ll3da.github.io/
บทความ: https://arxiv.org/abs/2311.18651
รหัส: https://github.com/Open3DA/LL3DA
CLOVA: Visual Assistant แบบ Closed-LOop พร้อมการใช้งานและอัปเดตเครื่องมือ
MoMask: การสร้างแบบจำลองมาสก์เจนเนอเรชั่นของการเคลื่อนไหวมนุษย์ 3 มิติ
อโมดัล ความจริงและความสมบูรณ์ในป่า
ปรับปรุงการต่อสายดินด้วยการมองเห็นด้วยคำอธิบายที่สอดคล้องกันในตัวเอง
ImageNet-D: การเปรียบเทียบความทนทานของโครงข่ายประสาทเทียมบนวัตถุสังเคราะห์แบบกระจาย
การเรียนรู้จากกิจกรรมกลุ่มมนุษย์สังเคราะห์
กรอบการถอดรหัสสมองแบบข้ามวิชา
การคาดการณ์ความหนาแน่นแบบหลายงานผ่านการผสมผสานของผู้เชี่ยวชาญระดับต่ำ
การเรียนรู้แบบเปลี่ยนค่าเฉลี่ยที่ตรงกันข้ามสำหรับการค้นพบหมวดหมู่ทั่วไป