Awesome LLM 3D
1.0.0
这是关于由大型语言模型(LLM)授权的3D相关任务的策划列表。它包含各种任务,包括3D理解,推理,生成和具体的代理。此外,我们还包括其他基础模型(剪辑,SAM),以了解该区域的整个情况。
这是一个活跃的存储库,您可以注意遵循最新进展。如果您觉得有用,请友善地将此仓库播放,并引用纸张。
[2024-05-16]?查看3D-LLM域中的第一张调查文件:当LLMS进入3D世界时:通过多模式大型语言模型对3D任务进行调查和荟萃分析
[2024-01-06] Runsen Xu添加了按时间顺序信息,并按照ZA的顺序重组了Zianzheng MA,以便在最新进展之后更好地改善它。
[2023-12-16] Xianzheng Ma和Yash Bhalgat策划了这一列表并发布了第一个版本;
很棒的-LLM-3D
3D理解(LLM)
3D理解(其他基础模型)
3D推理
3D代
3D体现的代理
3D基准测试
贡献
日期 | 关键字 | 研究所(第一) | 纸 | 发布 | 其他的 |
---|---|---|---|---|---|
2024-10-12 | 情况3d | uiuc | 情境意识在3D视觉语言推理中很重要 | CVPR '24 | 项目 |
2024-09-28 | llava-3d | HKU | LLAVA-3D:一种简单而有效的途径,可以赋予3D意识的LMM | arxiv | 项目 |
2024-09-08 | MSR3D | Bigai | 在3D场景中的多模式位置推理 | Neurips '24 | 项目 |
2024-08-28 | Greenplm | 嘿 | 更多文本,更少的要点:迈向3D数据有效的点语言理解 | arxiv | github |
2024-06-17 | llana | unibo | Llana:大语和nerf助手 | Neurips '24 | 项目 |
2024-06-07 | 空间pin | 牛津 | 空间pin:通过提示和互动3D先验增强视觉模型的空间推理能力 | Neurips '24 | 项目 |
2024-06-03 | 空间rgpt | UCSD | 空间:视觉语言模型中的接地空间推理 | Neurips '24 | github |
2024-05-02 | Minigpt-3d | 嘿 | Minigpt-3D:使用2D先验将3D点云与大语言模型有效地对齐 | ACM MM '24 | 项目 |
2024-02-27 | Shapellm | xjtu | Shapellm:包含相互作用的通用3D对象理解 | arxiv | 项目 |
2024-01-22 | ampatialvlm | Google Deepmind | 空间vlm:具有空间推理能力的赋予视觉语言模型 | CVPR '24 | 项目 |
2023-12-21 | LIDAR-LLM | PKU | LIDAR-LLM:探索大型语言模型的3D LIDAR理解的潜力 | arxiv | 项目 |
2023-12-15 | 3DAP | 上海AI实验室 | 3DaxiesPrompts:释放GPT-4V的3D空间任务功能 | arxiv | 项目 |
2023-12-13 | 聊天场所 | ZJU | 聊天场景:桥接3D场景和大型语言模型与对象标识符 | Neurips '24 | github |
2023-12-5 | GPT4Point | HKU | GPT4Point:一个统一的理解和发电的统一框架 | arxiv | github |
2023-11-30 | ll3da | 福丹大学 | LL3DA:视觉互动说明调整,以了解OMNI-3D理解,推理和计划 | arxiv | github |
2023-11-26 | ZSVG3D | Cuhk(SZ) | 零射击开放式摄影3D视觉接地的视觉编程 | arxiv | 项目 |
2023-11-18 | 狮子座 | Bigai | 3D世界中体现的通才代理人 | arxiv | github |
2023-10-14 | JM3D-LLM | Xiamen University | JM3D和JM3D-LLM:用联合多模式提示提升3D表示 | ACM MM '23 | github |
2023-10-10 | UNI3D | 拜 | UNI3D:大规模探索统一的3D表示 | ICLR '24 | 项目 |
2023-9-27 | - | kaust | 零射3D形状对应 | Siggraph Asia '23 | - |
2023-9-21 | llm-grounder | U-Mich | llm-grounder:用大语言模型作为代理商的开放式vocabulary 3D视觉接地 | ICRA '24 | github |
2023-9-1 | 点界 | cuhk | 点绑定和点-LLM:将点云与多模式的对准点云,以供3D理解,生成和说明以下 | arxiv | github |
2023-8-31 | Pointllm | cuhk | Pointllm:授权大型语言模型以了解点云 | ECCV '24 | github |
2023-8-17 | CHAT-3D | ZJU | CHAT-3D:有效调整3D场景通用对话的大语言模型 | arxiv | github |
2023-8-8 | 3D-Vista | Bigai | 3D-Vista:用于3D视觉和文本对齐的预训练的变压器 | ICCV '23 | github |
2023-7-24 | 3d-llm | 加州大学洛杉矶分校 | 3D-LLM:将3D世界注入大语模型 | Neurips '23 | github |
2023-3-29 | ViewRefer | cuhk | ViewRefer:掌握3D视觉接地的多视图知识 | ICCV '23 | github |
2022-9-12 | - | 麻省理工学院 | 利用机器人3D场景理解的大型(视觉)语言模型 | arxiv | github |
ID | 关键字 | 研究所(第一) | 纸 | 发布 | 其他的 |
---|---|---|---|---|---|
2024-10-12 | 词典3d | uiuc | 词典3D:探测复杂3D场景理解的视觉基础模型 | Neurips '24 | 项目 |
2024-10-07 | diff2scene | CMU | 带有文本对图像扩散模型的开放式摄烟3D语义分割 | ECCV 2024 | 项目 |
2024-04-07 | Any2Point | 上海AI实验室 | Any2Point:授权任何模式大型模型以进行有效的3D理解 | ECCV 2024 | github |
2024-03-16 | N2F2 | 牛津-VGG | N2F2:嵌套神经特征字段的分层场景理解 | arxiv | - |
2023-12-17 | sai3d | PKU | SAI3D:在3D场景中分段任何实例 | arxiv | 项目 |
2023-12-17 | Open3dis | Vinai | Open3DIS:带2D掩码指南的开放式摄氏3D实例细分 | arxiv | 项目 |
2023-11-6 | OVIR-3D | 罗格斯大学 | OVIR-3D:开放式vocabulary 3D实例检索未经3D数据的培训 | Corl '23 | github |
2023-10-29 | OpenMask3D | eth | OpenMask3D:Open-vocabulary 3D实例分段 | Neurips '23 | 项目 |
2023-10-5 | 开放式融合 | - | 开放式融合:实时开放式Vocabulary 3D映射和可查询场景表示形式 | arxiv | github |
2023-9-22 | OV-3DDET | Hkust | CODA:开放式Vocabulary 3D对象检测的合作小说盒发现和跨模式对齐 | Neurips '23 | github |
2023-9-19 | 灯 | - | 从语言到3D世界:适应点云知觉的语言模型 | OpenReview | - |
2023-9-15 | Opennerf | - | Opennerf:开放式套装3D神经场景细分,具有像素的特征,并具有新颖的视图 | OpenReview | github |
2023-9-1 | openins3d | 剑桥 | OpenINS3D:3D开放式摄取实例细分的快照和查找 | arxiv | 项目 |
2023-6-7 | 对比度提升 | 牛津-VGG | 对比度升降:3D对象实例通过缓慢的对比度融合进行分割 | Neurips '23 | github |
2023-6-4 | 多剪辑 | eth | 多卷流:在3D场景中回答任务的对比视力语言预训练 | arxiv | - |
2023-5-23 | 3D-ov | NTU | 弱监督的3D开放式视频分段 | Neurips '23 | github |
2023-5-21 | VL场 | 爱丁堡大学 | VL场:朝着语言基础的神经隐性空间表示 | ICRA '23 | 项目 |
2023-5-8 | 夹子-fo3d | Tsinghua大学 | 剪辑-fo3D:从2D密集剪辑中学习免费的开放世界3D场景表示 | ICCVW '23 | - |
2023-4-12 | 3D-VQA | eth | 剪辑引导的视觉语言预训练3D场景中的问答 | CVPRW '23 | github |
2023-4-3 | 区域 | HKU | 区域PLC:开放世界3D场景的区域点语言对比学习 | arxiv | 项目 |
2023-3-20 | CG3D | jhu | 剪辑进入3D:利用提示调整语言接地的3D识别 | arxiv | github |
2023-3-16 | lerf | 加州大学伯克利分校 | LERF:语言嵌入式辐射场 | ICCV '23 | github |
2023-2-14 | 概念输送 | 麻省理工学院 | 概念输送:开放式多模式3D映射 | RSS '23 | 项目 |
2023-1-12 | clip2scene | HKU | 夹子2scene:通过剪辑迈向标签有效的3D场景 | CVPR '23 | github |
2022-12-1 | Unit3d | tum | Unit3D:用于3D密集字幕和视觉接地的统一变压器 | ICCV '23 | github |
2022-11-29 | PLA | HKU | PLA:语言驱动的开放式Vocabulary 3D场景理解 | CVPR '23 | github |
2022-11-28 | 开元 | Ethz | 开放式:3D场景与开放的词汇理解 | CVPR '23 | github |
2022-10-11 | 夹场 | 纽约 | 剪辑场:机器人记忆的弱监督语义领域 | arxiv | 项目 |
2022-7-23 | 语义抽象 | 哥伦比亚 | 语义抽象:2D视觉模型的开放世界3D场景理解 | Corl '22 | 项目 |
2022-4-26 | Scannet200 | tum | 野外语言室内3D语义细分 | ECCV '22 | 项目 |
日期 | 关键字 | 研究所(第一) | 纸 | 发布 | 其他的 |
---|---|---|---|---|---|
2023-5-20 | 3D-CLR | 加州大学洛杉矶分校 | 从多视图图像中的3D概念学习和推理 | CVPR '23 | github |
- | 转录3D | TTI,芝加哥 | Transcribe3D:使用转录信息接地LLM,用于3D参考推理,并使用自校正的登录 | Corl '23 | github |
日期 | 关键字 | 研究所 | 纸 | 发布 | 其他的 |
---|---|---|---|---|---|
2023-11-29 | ShapeGpt | 福丹大学 | ShapeGpt:具有统一的多模式模型的3D形状生成 | arxiv | github |
2023-11-27 | meshgpt | tum | Meshgpt:生成三角形网格与仅解码器的变压器 | arxiv | 项目 |
2023-10-19 | 3D-GPT | 阿努 | 3D-GPT:使用大语言模型的程序3D建模 | arxiv | github |
2023-9-21 | llmr | 麻省理工学院 | LLMR:使用大语言模型实时提示交互式世界 | arxiv | - |
2023-9-20 | Dreamllm | Megvii | Dreamllm:协同多模式理解和创造 | arxiv | github |
2023-4-1 | Chatavatar | Deemos Tech | Dreamface:在文本指导下逐步生成动画3D面孔 | ACM tog | 网站 |
日期 | 关键字 | 研究所 | 纸 | 发布 | 其他的 |
---|---|---|---|---|---|
2024-01-22 | ampatialvlm | 深态 | 空间vlm:具有空间推理能力的赋予视觉语言模型 | CVPR '24 | 项目 |
2023-11-27 | dobb-e | 纽约 | 将机器人带回家 | arxiv | github |
2023-11-26 | 史蒂夫 | ZJU | 查看和思考:在虚拟环境中体现的代理 | arxiv | github |
2023-11-18 | 狮子座 | Bigai | 3D世界中体现的通才代理人 | arxiv | github |
2023-9-14 | Unihsi | 上海AI实验室 | 统一的人类习惯通过促进的接触链互动 | arxiv | github |
2023-7-28 | RT-2 | Google-Deepmind | RT-2:视觉语言动作模型将Web知识转移到机器人控制 | arxiv | github |
2023-7-12 | Sayplan | QUT机器人中心 | SAIDPLAN:使用3D场景图进行扩展机器人任务计划的大型语言模型 | Corl '23 | github |
2023-7-12 | voxposer | 斯坦福大学 | Voxposer:使用语言模型的机器人操作的可组合3D值图 | arxiv | github |
2022-12-13 | RT-1 | 谷歌 | RT-1:用于实际控制的机器人变压器 | arxiv | github |
2022-12-8 | LLM-Planner | 俄亥俄州立大学 | LLM-Planner:具有大语言模型的具体代理的基础计划很少 | ICCV '23 | github |
2022-10-11 | 夹场 | 纽约州,元 | 剪辑场:机器人记忆的弱监督语义领域 | RSS '23 | github |
2022-09-20 | nlmap-saycan | 谷歌 | 现实世界规划的开放式唱歌可查询场景表示 | ICRA '23 | github |
日期 | 关键字 | 研究所 | 纸 | 发布 | 其他的 |
---|---|---|---|---|---|
2024-09-08 | MSQA / MSNN | Bigai | 在3D场景中的多模式位置推理 | Neurips '24 | 项目 |
2024-06-10 | 3D-Grand / 3D-Pope | 乌米 | 3D grand:3D-llms的一百万尺度数据集,其接地更好,幻觉更少 | arxiv | 项目 |
2024-06-03 | 时髦台式板凳 | UCSD | 空间:视觉语言模型中的接地空间推理 | Neurips '24 | github |
2024-1-18 | 场景 | Bigai | 场景:缩放3D视觉学习,用于接地场景理解 | arxiv | github |
2023-12-26 | 体现 | 上海AI实验室 | 体现:整体多模式3D感知套件朝着体现的AI | arxiv | github |
2023-12-17 | M3dbench | 福丹大学 | M3DBENCH:让我们指导具有多模式3D提示的大型型号 | arxiv | github |
2023-11-29 | - | 深态 | 评估3D对象的基于得分的多探针注释的VLM | arxiv | github |
2023-09-14 | 交叉协调 | unibo | 关注文字和点:文本对形状相干性的基准 | ICCV '23 | github |
2022-10-14 | SQA3D | Bigai | SQA3D:位于3D场景中的问题 | ICLR '23 | github |
2021-12-20 | Scanqa | Riken AIP | Scanqa:3D问题回答空间场景的理解 | CVPR '23 | github |
2020-12-3 | scan2cap | tum | Scan2CAP:RGB-D扫描中的上下文感知的密集字幕 | CVPR '21 | github |
2020-8-23 | Referit3d | 斯坦福大学 | 推荐3D:现实场景中细粒3D对象识别的神经听众 | ECCV '20 | github |
2019-12-18 | 扫描 | tum | 扫描:3D对象在RGB-D中使用自然语言进行定位 | ECCV '20 | github |
您的贡献始终欢迎!
如果我不确定它们是否对3D LLM很棒,您可以通过添加来投票给它们,我会保持一些拉动请求吗?给他们。
如果您对此有任何疑问,请通过[email protected]或微信ID与MXZ1997112联系。
如果您发现此存储库有用,请考虑引用本文:
@misc{ma2024llmsstep3dworld, title={When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models}, author={Xianzheng Ma and Yash Bhalgat and Brandon Smart and Shuai Chen and Xinghui Li and Jian Ding and Jindong Gu and Dave Zhenyu Chen and Songyou Peng and Jia-Wang Bian and Philip H Torr and Marc Pollefeys and Matthias Nießner and Ian D Reid and Angel X. Chang and Iro Laina and Victor Adrian Prisacariu}, year={2024}, journal={arXiv preprint arXiv:2405.10255}, }
此存储库的灵感来自很棒