Berikut adalah daftar makalah yang dikuratori tentang tugas-tugas terkait 3D yang diberdayakan oleh model bahasa besar (LLM). Ini berisi berbagai tugas termasuk pemahaman 3D, penalaran, generasi, dan agen yang diwujudkan. Juga, kami menyertakan model fondasi lainnya (Clip, SAM) untuk seluruh gambar area ini.
Ini adalah repositori aktif, Anda dapat menonton untuk mengikuti kemajuan terbaru. Jika Anda merasa berguna, silakan bintangi repo ini dan kutip kertas.
[2024-05-16]? Lihatlah makalah survei pertama dalam domain 3D-LLM: Ketika LLMS masuk ke dunia 3D: survei dan meta-analisis tugas 3D melalui model bahasa multi-modal besar
[2024-01-06] Runsen Xu menambahkan informasi kronologis dan Xianzheng MA mengatur ulang dalam urutan ZA untuk lebih baik mengikuti kemajuan terbaru.
[2023-12-16] Xianzheng Ma dan Yash Bhalgat mengkuratori daftar ini dan menerbitkan versi pertama;
Awesome-llm-3d
Pemahaman 3D (LLM)
Pemahaman 3D (model fondasi lainnya)
Penalaran 3D
Generasi 3D
Agen yang diwujudkan 3D
Tolok ukur 3D
Berkontribusi
Tanggal | Kata kunci | Institut (pertama) | Kertas | Publikasi | Yang lain |
---|---|---|---|---|---|
2024-10-12 | Situation3d | UIUC | Kesadaran situasional penting dalam penalaran bahasa visi 3D | CVPR '24 | proyek |
2024-09-28 | Llava-3d | Hku | LLAVA-3D: Jalur sederhana namun efektif untuk memberdayakan LMM dengan kesadaran 3D | Arxiv | proyek |
2024-09-08 | MSR3D | Bigai | Alasan multi-modal yang terletak di adegan 3D | Neurips '24 | proyek |
2024-08-28 | Greenplm | Hust | Lebih banyak teks, lebih sedikit titik: Menuju pemahaman titik-bahasa 3D-efisien data | Arxiv | GitHub |
2024-06-17 | Llana | Unibo | Llana: Bahasa besar dan asisten nerf | Neurips '24 | proyek |
2024-06-07 | Spatialpin | Oxford | Spatialpin: Meningkatkan kemampuan penalaran spasial dari model penglihatan-penglihatan melalui mendorong dan berinteraksi Priors 3D | Neurips '24 | proyek |
2024-06-03 | Spatialrgpt | UCSD | SpatialRGPT: Penalaran spasial ground dalam model bahasa penglihatan | Neurips '24 | GitHub |
2024-05-02 | Minigpt-3d | Hust | Minigpt-3D: Secara efisien menyelaraskan awan titik 3D dengan model bahasa besar menggunakan prior 2D | ACM MM '24 | proyek |
2024-02-27 | Shapellm | Xjtu | Shapellm: Pemahaman Objek 3D Universal untuk interaksi yang diwujudkan | Arxiv | proyek |
2024-01-22 | Spatialvlm | Google DeepMind | SpatialVLM: Menganugerahi model bahasa penglihatan dengan kemampuan penalaran spasial | CVPR '24 | proyek |
2023-12-21 | Lidar-llm | PKU | LIDAR-LLM: Menjelajahi potensi model bahasa besar untuk pemahaman lidar 3D | Arxiv | proyek |
2023-12-15 | 3dap | Shanghai Ai Lab | 3daxiesprompts: Melepaskan kemampuan tugas spasial 3D GPT-4V | Arxiv | proyek |
2023-12-13 | Adegan obrolan | Zju | CHAT-SCENE: Menjembatani adegan 3D dan model bahasa besar dengan pengidentifikasi objek | Neurips '24 | GitHub |
2023-12-5 | GPT4Point | Hku | GPT4Point: Kerangka kerja terpadu untuk pemahaman dan generasi titik poin | Arxiv | GitHub |
2023-11-30 | Ll3da | Universitas Fudan | LL3DA: Penyetelan instruksi interaktif visual untuk pemahaman, penalaran, dan perencanaan OMNI-3D | Arxiv | GitHub |
2023-11-26 | ZSVG3D | Cuhk (SZ) | Pemrograman visual untuk landasan visual 3D vokabulary terbuka zero-shot | Arxiv | proyek |
2023-11-18 | LEO | Bigai | Agen generalis yang terkandung di dunia 3d | Arxiv | GitHub |
2023-10-14 | JM3D-llm | Universitas Xiamen | JM3D & JM3D-LLM: Meningkatkan representasi 3D dengan isyarat multi-modal bersama | ACM MM '23 | GitHub |
2023-10-10 | Uni3d | Baai | UNI3D: Menjelajahi representasi 3D terpadu pada skala | Iclr '24 | proyek |
2023-9-27 | - | Kaust | Korespondensi bentuk 3D Zero-shot | Siggraph Asia '23 | - |
2023-9-21 | Llm-grounder | U-mich | Llm-grounder: landasan visual 3D vokabulary terbuka dengan model bahasa besar sebagai agen | ICRA '24 | GitHub |
2023-9-1 | Point-bind | Cuhk | Point-Bind & Point-Llm: Menyelaraskan Point Cloud dengan Multi-Modalitas untuk Pemahaman 3D, Generasi, dan Instruksi Berikut | Arxiv | GitHub |
2023-8-31 | Pointllm | Cuhk | Pointllm: Memberdayakan Model Bahasa Besar Untuk Memahami Point Clouds | ECCV '24 | GitHub |
2023-8-17 | Obrolan-3d | Zju | CHAT-3D: Data-Tuning Model Bahasa Besar untuk Dialog Universal Adegan 3D | Arxiv | GitHub |
2023-8-8 | 3D-VISTA | Bigai | 3D-VISTA: Transformator terlatih untuk visi 3D dan perataan teks | ICCV '23 | GitHub |
2023-7-24 | 3D-llm | UCLA | 3D-LLM: Menyuntikkan dunia 3D ke dalam model bahasa besar | Neurips '23 | GitHub |
2023-3-29 | Viewrefer | Cuhk | ViewRefer: Pegang pengetahuan multi-view untuk landasan visual 3D | ICCV '23 | GitHub |
2022-9-12 | - | Mit | Memanfaatkan model bahasa besar (visual) untuk pemahaman adegan 3D robot | Arxiv | GitHub |
PENGENAL | kata kunci | Institut (pertama) | Kertas | Publikasi | Yang lain |
---|---|---|---|---|---|
2024-10-12 | Lexicon3d | UIUC | Lexicon3D: Probing Visual Foundation Models untuk Pemahaman Adegan 3D Kompleks | Neurips '24 | proyek |
2024-10-07 | Diff2scene | CMU | Segmentasi Semantik 3D Open-Vocabulary dengan model difusi teks-ke-gambar | ECCV 2024 | proyek |
2024-04-07 | Any2point | Shanghai Ai Lab | Any2Point: Memberdayakan model besar modalitas apa pun untuk pemahaman 3D yang efisien | ECCV 2024 | GitHub |
2024-03-16 | N2F2 | Oxford-VGG | N2F2: Pemahaman adegan hierarkis dengan bidang fitur saraf bersarang | Arxiv | - |
2023-12-17 | SAI3D | PKU | SAI3D: Segmen setiap contoh dalam adegan 3D | Arxiv | proyek |
2023-12-17 | Open3dis | Vinai | Open3DIS: segmentasi instance 3D vokabulary terbuka dengan panduan topeng 2D | Arxiv | proyek |
2023-11-6 | Ovir-3d | Universitas Rutgers | OVIR-3D: Pengambilan instance 3D vokabulary terbuka tanpa pelatihan pada data 3D | Corl '23 | GitHub |
2023-10-29 | OpenMask3d | Eth | OpenMask3D: segmentasi instance 3D terbuka-vokabulary | Neurips '23 | proyek |
2023-10-5 | Fusi terbuka | - | Fusi terbuka: Pemetaan 3D vokabulary terbuka waktu nyata dan representasi adegan yang dapat dipertanyakan | Arxiv | GitHub |
2023-9-22 | OV-3DDET | Hkust | Coda: Penemuan kotak novel kolaboratif dan penyelarasan lintas-modal untuk deteksi objek 3D vokabulary terbuka | Neurips '23 | GitHub |
2023-9-19 | LAMPU | - | Dari Bahasa ke Dunia 3D: Mengadaptasi Model Bahasa untuk Persepsi Point Cloud | OpenReview | - |
2023-9-15 | Opennerf | - | Opennerf: Segmentasi adegan saraf 3D set terbuka dengan fitur piksel-bijaksana dan tampilan baru yang diberikan novel | OpenReview | GitHub |
2023-9-1 | Openins3d | Cambridge | Openins3D: Snap and Lookup untuk segmentasi instance vokabulary terbuka 3D | Arxiv | proyek |
2023-6-7 | Lift kontras | Oxford-VGG | Lift Kontras: Segmentasi Instance Objek 3D dengan fusi kontras yang cepat cepat | Neurips '23 | GitHub |
2023-6-4 | Multi-klip | Eth | Multi-klip: Pra-pelatihan visi-visi kontras untuk pertanyaan menjawab tugas dalam adegan 3D | Arxiv | - |
2023-5-23 | 3D-OVS | Ntu | Segmentasi vokabulary terbuka 3D yang diawasi dengan lemah | Neurips '23 | GitHub |
2023-5-21 | VL-Fields | Universitas Edinburgh | VL-Fields: Menuju Representasi Spasial Implisit Saraf Berdasarkan Bahasa | ICRA '23 | proyek |
2023-5-8 | Klip-FO3D | Universitas Tsinghua | Klip-FO3D: Belajar representasi adegan 3D dunia terbuka gratis dari klip 2D padat | ICCVW '23 | - |
2023-4-12 | 3D-VQA | Eth | Pra-pelatihan visi-visi yang dipandu klip untuk menjawab pertanyaan dalam adegan 3D | CVPRW '23 | GitHub |
2023-4-3 | Regionplc | Hku | RegionPLC: Pembelajaran Kontras Bahasa Titik Regional untuk Pemahaman Adegan 3D Dunia Terbuka | Arxiv | proyek |
2023-3-20 | CG3D | Jhu | Klip Goes 3D: Memanfaatkan Tuning Prompt Untuk Pengenalan 3D Berbasis Bahasa | Arxiv | GitHub |
2023-3-16 | Lerf | UC Berkeley | Lerf: bidang pancaran tertanam bahasa | ICCV '23 | GitHub |
2023-2-14 | ConceptFusion | Mit | ConceptFusion: Pemetaan 3D multimodal terbuka | RSS '23 | proyek |
2023-1-12 | Clip2scene | Hku | Clip2scene: Menuju pemahaman adegan 3D label yang efisien dengan klip | CVPR '23 | GitHub |
2022-12-1 | Unit3d | Tum | Unit3D: Transformator terpadu untuk keterangan 3D padat dan landasan visual | ICCV '23 | GitHub |
2022-11-29 | Pla | Hku | PLA: Pemahaman adegan 3D terbuka-vokabulary yang digerakkan oleh bahasa | CVPR '23 | GitHub |
2022-11-28 | OpenScene | Ethz | Openscene: pemahaman adegan 3D dengan kosakata terbuka | CVPR '23 | GitHub |
2022-10-11 | Bidang klip | NYU | Bidang klip: bidang semantik yang diawasi dengan lemah untuk memori robot | Arxiv | proyek |
2022-7-23 | Abstraksi semantik | Kolumbia | Abstraksi semantik: pemahaman adegan 3D dunia terbuka dari model bahasa visi 2D | Corl '22 | proyek |
2022-4-26 | Scannet200 | Tum | Segmentasi semantik 3D dalam ruangan berbasis bahasa di alam liar | ECCV '22 | proyek |
Tanggal | kata kunci | Institut (pertama) | Kertas | Publikasi | Yang lain |
---|---|---|---|---|---|
2023-5-20 | 3D-Clr | UCLA | Pembelajaran konsep 3D dan penalaran dari gambar multi-view | CVPR '23 | GitHub |
- | Transcribe3d | TTI, Chicago | Transcribe3D: LLMS grounding menggunakan informasi yang ditranskripsi untuk penalaran referensial 3D dengan finetuning yang dikoreksi sendiri | Corl '23 | GitHub |
Tanggal | kata kunci | Lembaga | Kertas | Publikasi | Yang lain |
---|---|---|---|---|---|
2023-11-29 | Shapegpt | Universitas Fudan | Shapegpt: generasi bentuk 3D dengan model bahasa multi-modal terpadu | Arxiv | GitHub |
2023-11-27 | Meshgpt | Tum | MeshGPT: Menghasilkan Jaring Segitiga dengan Transformer Decoder saja | Arxiv | proyek |
2023-10-19 | 3D-GPT | Anu | 3D-GPT: Pemodelan 3D prosedural dengan model bahasa besar | Arxiv | GitHub |
2023-9-21 | Llmr | Mit | LLMR: Dorongan real-time dunia interaktif menggunakan model bahasa besar | Arxiv | - |
2023-9-20 | Dreamllm | Megvii | Dreamllm: Pemahaman dan penciptaan multimodal sinergis | Arxiv | GitHub |
2023-4-1 | Chatavatar | DEEMOS TECH | Dreamface: Generasi progresif wajah 3D yang dianimasikan di bawah panduan teks | ACM TOG | situs web |
Tanggal | kata kunci | Lembaga | Kertas | Publikasi | Yang lain |
---|---|---|---|---|---|
2024-01-22 | Spatialvlm | DeepMind | SpatialVLM: Menganugerahi model bahasa penglihatan dengan kemampuan penalaran spasial | CVPR '24 | proyek |
2023-11-27 | Dobb-e | NYU | Saat membawa robot pulang | Arxiv | GitHub |
2023-11-26 | Steve | Zju | Lihat dan Pikirkan: Agen yang Diwujudkan di Lingkungan Virtual | Arxiv | GitHub |
2023-11-18 | LEO | Bigai | Agen generalis yang terkandung di dunia 3d | Arxiv | GitHub |
2023-9-14 | Unihsi | Shanghai Ai Lab | Interaksi adegan manusia terpadu melalui rantai-kontak yang diminta | Arxiv | GitHub |
2023-7-28 | RT-2 | Google-Deepmind | RT-2: Model-aksi penglihatan-aksi mentransfer pengetahuan web ke kontrol robot | Arxiv | GitHub |
2023-7-12 | Sayplan | Pusat Robotika QUT | Sayplan: Model Bahasa Besar Membumikan Menggunakan Grafik Adegan 3D Untuk Perencanaan Tugas Robot yang Dapat Diukur | Corl '23 | GitHub |
2023-7-12 | Voxposer | Stanford | Voxposer: Peta nilai 3D yang dapat dikomposisi untuk manipulasi robot dengan model bahasa | Arxiv | GitHub |
2022-12-13 | RT-1 | RT-1: Transformator Robotika untuk Kontrol Dunia Nyata pada Skala | Arxiv | GitHub | |
2022-12-8 | LLM-Planner | Universitas Negeri Ohio | LLM-Planner: Perencanaan ground beberapa tembakan untuk agen yang diwujudkan dengan model bahasa besar | ICCV '23 | GitHub |
2022-10-11 | Bidang klip | NYU, Meta | Bidang klip: bidang semantik yang diawasi dengan lemah untuk memori robot | RSS '23 | GitHub |
2022-09-20 | Nlmap-saycan | Representasi adegan yang dapat di-vokabulary terbuka untuk perencanaan dunia nyata | ICRA '23 | GitHub |
Tanggal | kata kunci | Lembaga | Kertas | Publikasi | Yang lain |
---|---|---|---|---|---|
2024-09-08 | MSQA / MSNN | Bigai | Alasan multi-modal yang terletak di adegan 3D | Neurips '24 | proyek |
2024-06-10 | 3D-grand / 3D-POPE | Umich | Grand 3D: Dataset skala juta untuk 3D-LLM dengan landasan yang lebih baik dan lebih sedikit halusinasi | Arxiv | proyek |
2024-06-03 | Spatialrgpt-bench | UCSD | SpatialRGPT: Penalaran spasial ground dalam model bahasa penglihatan | Neurips '24 | GitHub |
2024-1-18 | Pemandangan | Bigai | Sceneverse: Menskalakan Pembelajaran Bahasa Visi 3D untuk Pemahaman Adegan Berdasarkan | Arxiv | GitHub |
2023-12-26 | Obstan | Shanghai Ai Lab | Obstan: Rangkaian persepsi 3D multi-modal holistik terhadap AI yang diwujudkan | Arxiv | GitHub |
2023-12-17 | M3dbench | Universitas Fudan | M3DBench: Mari kita perintahkan model besar dengan petunjuk 3D multi-modal | Arxiv | GitHub |
2023-11-29 | - | DeepMind | Mengevaluasi VLM untuk anotasi multi-probe berbasis skor objek 3D | Arxiv | GitHub |
2023-09-14 | Crosskoherence | Unibo | Melihat kata-kata dan poin dengan perhatian: tolok ukur untuk koherensi teks-ke-bentuk | ICCV '23 | GitHub |
2022-10-14 | SQA3D | Bigai | SQA3D: Pertanyaan yang terletak di adegan 3D | Iclr '23 | GitHub |
2021-12-20 | Scanqa | Riken AIP | Scanqa: Pertanyaan 3D Menjawab untuk pemahaman adegan spasial | CVPR '23 | GitHub |
2020-12-3 | Scan2cap | Tum | SCAN2CAP: Captioning padat konteks dalam pemindaian RGB-D | CVPR '21 | GitHub |
2020-8-23 | Referensi3d | Stanford | Referensi3D: Pendengar saraf untuk identifikasi objek 3D berbutir halus dalam adegan dunia nyata | ECCV '20 | GitHub |
2019-12-18 | Scanrefer | Tum | ScanRefer: Lokalisasi objek 3D dalam pemindaian RGB-D menggunakan bahasa alami | ECCV '20 | GitHub |
Kontribusi Anda selalu diterima!
Saya akan membuka beberapa permintaan tarik jika saya tidak yakin apakah mereka luar biasa untuk 3D LLMS, Anda dapat memilih mereka dengan menambahkan? kepada mereka.
Jika Anda memiliki pertanyaan tentang daftar yang berpendapat ini, silakan hubungi [email protected] atau id WeChat: MXZ1997112.
Jika Anda menemukan repositori ini bermanfaat, harap pertimbangkan mengutip makalah ini:
@misc{ma2024llmsstep3dworld, title={When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models}, author={Xianzheng Ma and Yash Bhalgat and Brandon Smart and Shuai Chen and Xinghui Li and Jian Ding and Jindong Gu and Dave Zhenyu Chen and Songyou Peng and Jia-Wang Bian and Philip H Torr and Marc Pollefeys and Matthias Nießner and Ian D Reid and Angel X. Chang and Iro Laina and Victor Adrian Prisacariu}, year={2024}, journal={arXiv preprint arXiv:2405.10255}, }
Repo ini terinspirasi oleh Llm Awesome