Awesome LLM 3D下载 - Awesome LLM 3D源代码下载

Awesome LLM 3D

其他源码

1.0.0

下载

很棒的-LLM-3D

关于

这是关于由大型语言模型（LLM）授权的3D相关任务的策划列表。它包含各种任务，包括3D理解，推理，生成和具体的代理。此外，我们还包括其他基础模型（剪辑，SAM），以了解该区域的整个情况。

这是一个活跃的存储库，您可以注意遵循最新进展。如果您觉得有用，请友善地将此仓库播放，并引用纸张。

消息

[2024-05-16]？查看3D-LLM域中的第一张调查文件：当LLMS进入3D世界时：通过多模式大型语言模型对3D任务进行调查和荟萃分析
[2024-01-06] Runsen Xu添加了按时间顺序信息，并按照ZA的顺序重组了Zianzheng MA，以便在最新进展之后更好地改善它。
[2023-12-16] Xianzheng Ma和Yash Bhalgat策划了这一列表并发布了第一个版本；

内容表

很棒的-LLM-3D

3D理解（LLM）
3D理解（其他基础模型）
3D推理
3D代
3D体现的代理
3D基准测试
贡献

3D通过LLM理解

日期	关键字	研究所（第一）	纸	发布	其他的
2024-10-12	情况3d	uiuc	情境意识在3D视觉语言推理中很重要	CVPR '24	项目
2024-09-28	llava-3d	HKU	LLAVA-3D：一种简单而有效的途径，可以赋予3D意识的LMM	arxiv	项目
2024-09-08	MSR3D	Bigai	在3D场景中的多模式位置推理	Neurips '24	项目
2024-08-28	Greenplm	嘿	更多文本，更少的要点：迈向3D数据有效的点语言理解	arxiv	github
2024-06-17	llana	unibo	Llana：大语和nerf助手	Neurips '24	项目
2024-06-07	空间pin	牛津	空间pin：通过提示和互动3D先验增强视觉模型的空间推理能力	Neurips '24	项目
2024-06-03	空间rgpt	UCSD	空间：视觉语言模型中的接地空间推理	Neurips '24	github
2024-05-02	Minigpt-3d	嘿	Minigpt-3D：使用2D先验将3D点云与大语言模型有效地对齐	ACM MM '24	项目
2024-02-27	Shapellm	xjtu	Shapellm：包含相互作用的通用3D对象理解	arxiv	项目
2024-01-22	ampatialvlm	Google Deepmind	空间vlm：具有空间推理能力的赋予视觉语言模型	CVPR '24	项目
2023-12-21	LIDAR-LLM	PKU	LIDAR-LLM：探索大型语言模型的3D LIDAR理解的潜力	arxiv	项目
2023-12-15	3DAP	上海AI实验室	3DaxiesPrompts：释放GPT-4V的3D空间任务功能	arxiv	项目
2023-12-13	聊天场所	ZJU	聊天场景：桥接3D场景和大型语言模型与对象标识符	Neurips '24	github
2023-12-5	GPT4Point	HKU	GPT4Point：一个统一的理解和发电的统一框架	arxiv	github
2023-11-30	ll3da	福丹大学	LL3DA：视觉互动说明调整，以了解OMNI-3D理解，推理和计划	arxiv	github
2023-11-26	ZSVG3D	Cuhk（SZ）	零射击开放式摄影3D视觉接地的视觉编程	arxiv	项目
2023-11-18	狮子座	Bigai	3D世界中体现的通才代理人	arxiv	github
2023-10-14	JM3D-LLM	Xiamen University	JM3D和JM3D-LLM：用联合多模式提示提升3D表示	ACM MM '23	github
2023-10-10	UNI3D	拜	UNI3D：大规模探索统一的3D表示	ICLR '24	项目
2023-9-27	-	kaust	零射3D形状对应	Siggraph Asia '23	-
2023-9-21	llm-grounder	U-Mich	llm-grounder：用大语言模型作为代理商的开放式vocabulary 3D视觉接地	ICRA '24	github
2023-9-1	点界	cuhk	点绑定和点-LLM：将点云与多模式的对准点云，以供3D理解，生成和说明以下	arxiv	github
2023-8-31	Pointllm	cuhk	Pointllm：授权大型语言模型以了解点云	ECCV '24	github
2023-8-17	CHAT-3D	ZJU	CHAT-3D：有效调整3D场景通用对话的大语言模型	arxiv	github
2023-8-8	3D-Vista	Bigai	3D-Vista：用于3D视觉和文本对齐的预训练的变压器	ICCV '23	github
2023-7-24	3d-llm	加州大学洛杉矶分校	3D-LLM：将3D世界注入大语模型	Neurips '23	github
2023-3-29	ViewRefer	cuhk	ViewRefer：掌握3D视觉接地的多视图知识	ICCV '23	github
2022-9-12	-	麻省理工学院	利用机器人3D场景理解的大型（视觉）语言模型	arxiv	github

3D通过其他基础模型理解

ID	关键字	研究所（第一）	纸	发布	其他的
2024-10-12	词典3d	uiuc	词典3D：探测复杂3D场景理解的视觉基础模型	Neurips '24	项目
2024-10-07	diff2scene	CMU	带有文本对图像扩散模型的开放式摄烟3D语义分割	ECCV 2024	项目
2024-04-07	Any2Point	上海AI实验室	Any2Point：授权任何模式大型模型以进行有效的3D理解	ECCV 2024	github
2024-03-16	N2F2	牛津-VGG	N2F2：嵌套神经特征字段的分层场景理解	arxiv	-
2023-12-17	sai3d	PKU	SAI3D：在3D场景中分段任何实例	arxiv	项目
2023-12-17	Open3dis	Vinai	Open3DIS：带2D掩码指南的开放式摄氏3D实例细分	arxiv	项目
2023-11-6	OVIR-3D	罗格斯大学	OVIR-3D：开放式vocabulary 3D实例检索未经3D数据的培训	Corl '23	github
2023-10-29	OpenMask3D	eth	OpenMask3D：Open-vocabulary 3D实例分段	Neurips '23	项目
2023-10-5	开放式融合	-	开放式融合：实时开放式Vocabulary 3D映射和可查询场景表示形式	arxiv	github
2023-9-22	OV-3DDET	Hkust	CODA：开放式Vocabulary 3D对象检测的合作小说盒发现和跨模式对齐	Neurips '23	github
2023-9-19	灯	-	从语言到3D世界：适应点云知觉的语言模型	OpenReview	-
2023-9-15	Opennerf	-	Opennerf：开放式套装3D神经场景细分，具有像素的特征，并具有新颖的视图	OpenReview	github
2023-9-1	openins3d	剑桥	OpenINS3D：3D开放式摄取实例细分的快照和查找	arxiv	项目
2023-6-7	对比度提升	牛津-VGG	对比度升降：3D对象实例通过缓慢的对比度融合进行分割	Neurips '23	github
2023-6-4	多剪辑	eth	多卷流：在3D场景中回答任务的对比视力语言预训练	arxiv	-
2023-5-23	3D-ov	NTU	弱监督的3D开放式视频分段	Neurips '23	github
2023-5-21	VL场	爱丁堡大学	VL场：朝着语言基础的神经隐性空间表示	ICRA '23	项目
2023-5-8	夹子-fo3d	Tsinghua大学	剪辑-fo3D：从2D密集剪辑中学习免费的开放世界3D场景表示	ICCVW '23	-
2023-4-12	3D-VQA	eth	剪辑引导的视觉语言预训练3D场景中的问答	CVPRW '23	github
2023-4-3	区域	HKU	区域PLC：开放世界3D场景的区域点语言对比学习	arxiv	项目
2023-3-20	CG3D	jhu	剪辑进入3D：利用提示调整语言接地的3D识别	arxiv	github
2023-3-16	lerf	加州大学伯克利分校	LERF：语言嵌入式辐射场	ICCV '23	github
2023-2-14	概念输送	麻省理工学院	概念输送：开放式多模式3D映射	RSS '23	项目
2023-1-12	clip2scene	HKU	夹子2scene：通过剪辑迈向标签有效的3D场景	CVPR '23	github
2022-12-1	Unit3d	tum	Unit3D：用于3D密集字幕和视觉接地的统一变压器	ICCV '23	github
2022-11-29	PLA	HKU	PLA：语言驱动的开放式Vocabulary 3D场景理解	CVPR '23	github
2022-11-28	开元	Ethz	开放式：3D场景与开放的词汇理解	CVPR '23	github
2022-10-11	夹场	纽约	剪辑场：机器人记忆的弱监督语义领域	arxiv	项目
2022-7-23	语义抽象	哥伦比亚	语义抽象：2D视觉模型的开放世界3D场景理解	Corl '22	项目
2022-4-26	Scannet200	tum	野外语言室内3D语义细分	ECCV '22	项目

3D推理

日期	关键字	研究所（第一）	纸	发布	其他的
2023-5-20	3D-CLR	加州大学洛杉矶分校	从多视图图像中的3D概念学习和推理	CVPR '23	github
-	转录3D	TTI，芝加哥	Transcribe3D：使用转录信息接地LLM，用于3D参考推理，并使用自校正的登录	Corl '23	github

3D代

日期	关键字	研究所	纸	发布	其他的
2023-11-29	ShapeGpt	福丹大学	ShapeGpt：具有统一的多模式模型的3D形状生成	arxiv	github
2023-11-27	meshgpt	tum	Meshgpt：生成三角形网格与仅解码器的变压器	arxiv	项目
2023-10-19	3D-GPT	阿努	3D-GPT：使用大语言模型的程序3D建模	arxiv	github
2023-9-21	llmr	麻省理工学院	LLMR：使用大语言模型实时提示交互式世界	arxiv	-
2023-9-20	Dreamllm	Megvii	Dreamllm：协同多模式理解和创造	arxiv	github
2023-4-1	Chatavatar	Deemos Tech	Dreamface：在文本指导下逐步生成动画3D面孔	ACM tog	网站

3D体现的代理

日期	关键字	研究所	纸	发布	其他的
2024-01-22	ampatialvlm	深态	空间vlm：具有空间推理能力的赋予视觉语言模型	CVPR '24	项目
2023-11-27	dobb-e	纽约	将机器人带回家	arxiv	github
2023-11-26	史蒂夫	ZJU	查看和思考：在虚拟环境中体现的代理	arxiv	github
2023-11-18	狮子座	Bigai	3D世界中体现的通才代理人	arxiv	github
2023-9-14	Unihsi	上海AI实验室	统一的人类习惯通过促进的接触链互动	arxiv	github
2023-7-28	RT-2	Google-Deepmind	RT-2：视觉语言动作模型将Web知识转移到机器人控制	arxiv	github
2023-7-12	Sayplan	QUT机器人中心	SAIDPLAN：使用3D场景图进行扩展机器人任务计划的大型语言模型	Corl '23	github
2023-7-12	voxposer	斯坦福大学	Voxposer：使用语言模型的机器人操作的可组合3D值图	arxiv	github
2022-12-13	RT-1	谷歌	RT-1：用于实际控制的机器人变压器	arxiv	github
2022-12-8	LLM-Planner	俄亥俄州立大学	LLM-Planner：具有大语言模型的具体代理的基础计划很少	ICCV '23	github
2022-10-11	夹场	纽约州，元	剪辑场：机器人记忆的弱监督语义领域	RSS '23	github
2022-09-20	nlmap-saycan	谷歌	现实世界规划的开放式唱歌可查询场景表示	ICRA '23	github

3D基准测试

日期	关键字	研究所	纸	发布	其他的
2024-09-08	MSQA / MSNN	Bigai	在3D场景中的多模式位置推理	Neurips '24	项目
2024-06-10	3D-Grand / 3D-Pope	乌米	3D grand：3D-llms的一百万尺度数据集，其接地更好，幻觉更少	arxiv	项目
2024-06-03	时髦台式板凳	UCSD	空间：视觉语言模型中的接地空间推理	Neurips '24	github
2024-1-18	场景	Bigai	场景：缩放3D视觉学习，用于接地场景理解	arxiv	github
2023-12-26	体现	上海AI实验室	体现：整体多模式3D感知套件朝着体现的AI	arxiv	github
2023-12-17	M3dbench	福丹大学	M3DBENCH：让我们指导具有多模式3D提示的大型型号	arxiv	github
2023-11-29	-	深态	评估3D对象的基于得分的多探针注释的VLM	arxiv	github
2023-09-14	交叉协调	unibo	关注文字和点：文本对形状相干性的基准	ICCV '23	github
2022-10-14	SQA3D	Bigai	SQA3D：位于3D场景中的问题	ICLR '23	github
2021-12-20	Scanqa	Riken AIP	Scanqa：3D问题回答空间场景的理解	CVPR '23	github
2020-12-3	scan2cap	tum	Scan2CAP：RGB-D扫描中的上下文感知的密集字幕	CVPR '21	github
2020-8-23	Referit3d	斯坦福大学	推荐3D：现实场景中细粒3D对象识别的神经听众	ECCV '20	github
2019-12-18	扫描	tum	扫描：3D对象在RGB-D中使用自然语言进行定位	ECCV '20	github

贡献

您的贡献始终欢迎！

如果我不确定它们是否对3D LLM很棒，您可以通过添加来投票给它们，我会保持一些拉动请求吗？给他们。

如果您对此有任何疑问，请通过[email protected]或微信ID与MXZ1997112联系。

星历史

引用

如果您发现此存储库有用，请考虑引用本文：

@misc{ma2024llmsstep3dworld,
      title={When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models}, 
      author={Xianzheng Ma and Yash Bhalgat and Brandon Smart and Shuai Chen and Xinghui Li and Jian Ding and Jindong Gu and Dave Zhenyu Chen and Songyou Peng and Jia-Wang Bian and Philip H Torr and Marc Pollefeys and Matthias Nießner and Ian D Reid and Angel X. Chang and Iro Laina and Victor Adrian Prisacariu},
      year={2024},
      journal={arXiv preprint arXiv:2405.10255},
}