Awesome LLM 3D下載 - Awesome LLM 3D源代碼下載

Awesome LLM 3D

其他源碼

1.0.0

下載

很棒的-LLM-3D

關於

這是關於由大型語言模型（LLM）授權的3D相關任務的策劃列表。它包含各種任務，包括3D理解，推理，生成和具體的代理。此外，我們還包括其他基礎模型（剪輯，SAM），以了解該區域的整個情況。

這是一個活躍的存儲庫，您可以注意遵循最新進展。如果您覺得有用，請友善地將此倉庫播放，並引用紙張。

消息

[2024-05-16]？查看3D-LLM域中的第一張調查文件：當LLMS進入3D世界時：通過多模式大型語言模型對3D任務進行調查和薈萃分析
[2024-01-06] Runsen Xu添加了按時間順序信息，並按照ZA的順序重組了Zianzheng MA，以便在最新進展之後更好地改善它。
[2023-12-16] Xianzheng Ma和Yash Bhalgat策劃了這一列表並發布了第一個版本；

內容表

很棒的-LLM-3D

3D理解（LLM）
3D理解（其他基礎模型）
3D推理
3D代
3D體現的代理
3D基準測試
貢獻

3D通過LLM理解

日期	關鍵字	研究所（第一）	紙	出版品	其他的
2024-10-12	情況3d	uiuc	情境意識在3D視覺語言推理中很重要	CVPR '24	專案
2024-09-28	llava-3d	HKU	LLAVA-3D：一種簡單而有效的途徑，可以賦予3D意識的LMM	arxiv	專案
2024-09-08	MSR3D	Bigai	在3D場景中的多模式位置推理	Neurips '24	專案
2024-08-28	Greenplm	嘿	更多文本，更少的要點：邁向3D數據有效的點語言理解	arxiv	github
2024-06-17	llana	unibo	Llana：大語和nerf助手	Neurips '24	專案
2024-06-07	空間pin	牛津	空間pin：通過提示和互動3D先驗增強視覺模型的空間推理能力	Neurips '24	專案
2024-06-03	空間rgpt	UCSD	空間：視覺語言模型中的接地空間推理	Neurips '24	github
2024-05-02	Minigpt-3d	嘿	Minigpt-3D：使用2D先驗將3D點雲與大語言模型有效地對齊	ACM MM '24	專案
2024-02-27	Shapellm	xjtu	Shapellm：包含相互作用的通用3D對象理解	arxiv	專案
2024-01-22	ampatialvlm	Google Deepmind	空間vlm：具有空間推理能力的賦予視覺語言模型	CVPR '24	專案
2023-12-21	LIDAR-LLM	PKU	LIDAR-LLM：探索大型語言模型的3D LIDAR理解的潛力	arxiv	專案
2023-12-15	3DAP	上海AI實驗室	3DaxiesPrompts：釋放GPT-4V的3D空間任務功能	arxiv	專案
2023-12-13	聊天場所	ZJU	聊天場景：橋接3D場景和大型語言模型與對象標識符	Neurips '24	github
2023-12-5	GPT4Point	HKU	GPT4Point：一個統一的理解和發電的統一框架	arxiv	github
2023-11-30	ll3da	福丹大學	LL3DA：視覺互動說明調整，以了解OMNI-3D理解，推理和計劃	arxiv	github
2023-11-26	ZSVG3D	Cuhk（SZ）	零射擊開放式攝影3D視覺接地的視覺編程	arxiv	專案
2023-11-18	獅子座	Bigai	3D世界中體現的通才代理人	arxiv	github
2023-10-14	JM3D-LLM	Xiamen University	JM3D和JM3D-LLM：用聯合多模式提示提升3D表示	ACM MM '23	github
2023-10-10	UNI3D	拜	UNI3D：大規模探索統一的3D表示	ICLR '24	專案
2023-9-27	-	kaust	零射3D形狀對應	Siggraph Asia '23	-
2023-9-21	llm-grounder	U-Mich	llm-grounder：用大語言模型作為代理商的開放式vocabulary 3D視覺接地	ICRA '24	github
2023-9-1	點界	cuhk	點綁定和點-LLM：將點雲與多模式的對準點雲，以供3D理解，生成和說明以下	arxiv	github
2023-8-31	Pointllm	cuhk	Pointllm：授權大型語言模型以了解點雲	ECCV '24	github
2023-8-17	CHAT-3D	ZJU	CHAT-3D：有效調整3D場景通用對話的大語言模型	arxiv	github
2023-8-8	3D-Vista	Bigai	3D-Vista：用於3D視覺和文本對齊的預訓練的變壓器	ICCV '23	github
2023-7-24	3d-llm	加州大學洛杉磯分校	3D-LLM：將3D世界注入大語模型	Neurips '23	github
2023-3-29	ViewRefer	cuhk	ViewRefer：掌握3D視覺接地的多視圖知識	ICCV '23	github
2022-9-12	-	麻省理工學院	利用機器人3D場景理解的大型（視覺）語言模型	arxiv	github

3D通過其他基礎模型理解

ID	關鍵字	研究所（第一）	紙	出版品	其他的
2024-10-12	詞典3d	uiuc	詞典3D：探測複雜3D場景理解的視覺基礎模型	Neurips '24	專案
2024-10-07	diff2scene	CMU	帶有文本對圖像擴散模型的開放式攝煙3D語義分割	ECCV 2024	專案
2024-04-07	Any2Point	上海AI實驗室	Any2Point：授權任何模式大型模型以進行有效的3D理解	ECCV 2024	github
2024-03-16	N2F2	牛津-VGG	N2F2：嵌套神經特徵字段的分層場景理解	arxiv	-
2023-12-17	sai3d	PKU	SAI3D：在3D場景中分段任何實例	arxiv	專案
2023-12-17	Open3dis	Vinai	Open3DIS：帶2D掩碼指南的開放式攝氏3D實例細分	arxiv	專案
2023-11-6	OVIR-3D	羅格斯大學	OVIR-3D：開放式vocabulary 3D實例檢索未經3D數據的培訓	Corl '23	github
2023-10-29	OpenMask3D	eth	OpenMask3D：Open-vocabulary 3D實例分段	Neurips '23	專案
2023-10-5	開放式融合	-	開放式融合：實時開放式Vocabulary 3D映射和可查詢場景表示形式	arxiv	github
2023-9-22	OV-3DDET	Hkust	CODA：開放式Vocabulary 3D對象檢測的合作小說盒發現和跨模式對齊	Neurips '23	github
2023-9-19	燈	-	從語言到3D世界：適應點雲知覺的語言模型	OpenReview	-
2023-9-15	Opennerf	-	Opennerf：開放式套裝3D神經場景細分，具有像素的特徵，並具有新穎的視圖	OpenReview	github
2023-9-1	openins3d	劍橋	OpenINS3D：3D開放式攝取實例細分的快照和查找	arxiv	專案
2023-6-7	對比度提升	牛津-VGG	對比度升降：3D對象實例通過緩慢的對比度融合進行分割	Neurips '23	github
2023-6-4	多剪輯	eth	多卷流：在3D場景中回答任務的對比視力語言預訓練	arxiv	-
2023-5-23	3D-ov	NTU	弱監督的3D開放式視頻分段	Neurips '23	github
2023-5-21	VL場	愛丁堡大學	VL場：朝著語言基礎的神經隱性空間表示	ICRA '23	專案
2023-5-8	夾子-fo3d	Tsinghua大學	剪輯-fo3D：從2D密集剪輯中學習免費的開放世界3D場景表示	ICCVW '23	-
2023-4-12	3D-VQA	eth	剪輯引導的視覺語言預訓練3D場景中的問答	CVPRW '23	github
2023-4-3	區域	HKU	區域PLC：開放世界3D場景的區域點語言對比學習	arxiv	專案
2023-3-20	CG3D	jhu	剪輯進入3D：利用提示調整語言接地的3D識別	arxiv	github
2023-3-16	lerf	加州大學伯克利分校	LERF：語言嵌入式輻射場	ICCV '23	github
2023-2-14	概念輸送	麻省理工學院	概念輸送：開放式多模式3D映射	RSS '23	專案
2023-1-12	clip2scene	HKU	夾子2scene：通過剪輯邁向標籤有效的3D場景	CVPR '23	github
2022-12-1	Unit3d	tum	Unit3D：用於3D密集字幕和視覺接地的統一變壓器	ICCV '23	github
2022-11-29	PLA	HKU	PLA：語言驅動的開放式Vocabulary 3D場景理解	CVPR '23	github
2022-11-28	開元	Ethz	開放式：3D場景與開放的詞彙理解	CVPR '23	github
2022-10-11	夾場	紐約	剪輯場：機器人記憶的弱監督語義領域	arxiv	專案
2022-7-23	語義抽象	哥倫比亞	語義抽象：2D視覺模型的開放世界3D場景理解	Corl '22	專案
2022-4-26	Scannet200	tum	野外語言室內3D語義細分	ECCV '22	專案

3D推理

日期	關鍵字	研究所（第一）	紙	出版品	其他的
2023-5-20	3D-CLR	加州大學洛杉磯分校	從多視圖圖像中的3D概念學習和推理	CVPR '23	github
-	轉錄3D	TTI，芝加哥	Transcribe3D：使用轉錄信息接地LLM，用於3D參考推理，並使用自校正的登錄	Corl '23	github

3D代

日期	關鍵字	研究所	紙	出版品	其他的
2023-11-29	ShapeGpt	福丹大學	ShapeGpt：具有統一的多模式模型的3D形狀生成	arxiv	github
2023-11-27	meshgpt	tum	Meshgpt：生成三角形網格與僅解碼器的變壓器	arxiv	專案
2023-10-19	3D-GPT	阿努	3D-GPT：使用大語言模型的程序3D建模	arxiv	github
2023-9-21	llmr	麻省理工學院	LLMR：使用大語言模型實時提示交互式世界	arxiv	-
2023-9-20	Dreamllm	Megvii	Dreamllm：協同多模式理解和創造	arxiv	github
2023-4-1	Chatavatar	Deemos Tech	Dreamface：在文本指導下逐步生成動畫3D面孔	ACM tog	網站

3D體現的代理

日期	關鍵字	研究所	紙	出版品	其他的
2024-01-22	ampatialvlm	深態	空間vlm：具有空間推理能力的賦予視覺語言模型	CVPR '24	專案
2023-11-27	dobb-e	紐約	將機器人帶回家	arxiv	github
2023-11-26	史蒂夫	ZJU	查看和思考：在虛擬環境中體現的代理	arxiv	github
2023-11-18	獅子座	Bigai	3D世界中體現的通才代理人	arxiv	github
2023-9-14	Unihsi	上海AI實驗室	統一的人類習慣通過促進的接觸鏈互動	arxiv	github
2023-7-28	RT-2	Google-Deepmind	RT-2：視覺語言動作模型將Web知識轉移到機器人控制	arxiv	github
2023-7-12	Sayplan	QUT機器人中心	SAIDPLAN：使用3D場景圖進行擴展機器人任務計劃的大型語言模型	Corl '23	github
2023-7-12	voxposer	斯坦福大學	Voxposer：使用語言模型的機器人操作的可組合3D值圖	arxiv	github
2022-12-13	RT-1	Google	RT-1：用於實際控制的機器人變壓器	arxiv	github
2022-12-8	LLM-Planner	俄亥俄州立大學	LLM-Planner：具有大語言模型的具體代理的基礎計劃很少	ICCV '23	github
2022-10-11	夾場	紐約州，元	剪輯場：機器人記憶的弱監督語義領域	RSS '23	github
2022-09-20	nlmap-saycan	Google	現實世界規劃的開放式唱歌可查詢場景表示	ICRA '23	github

3D基準測試

日期	關鍵字	研究所	紙	出版品	其他的
2024-09-08	MSQA / MSNN	Bigai	在3D場景中的多模式位置推理	Neurips '24	專案
2024-06-10	3D-Grand / 3D-Pope	烏米	3D grand：3D-llms的一百萬尺度數據集，其接地更好，幻覺更少	arxiv	專案
2024-06-03	時髦台式板凳	UCSD	空間：視覺語言模型中的接地空間推理	Neurips '24	github
2024-1-18	場景	Bigai	場景：縮放3D視覺學習，用於接地場景理解	arxiv	github
2023-12-26	體現	上海AI實驗室	體現：整體多模式3D感知套件朝著體現的AI	arxiv	github
2023-12-17	M3dbench	福丹大學	M3DBENCH：讓我們指導具有多模式3D提示的大型型號	arxiv	github
2023-11-29	-	深態	評估3D對象的基於得分的多探針註釋的VLM	arxiv	github
2023-09-14	交叉協調	unibo	關注文字和點：文本對形狀相干性的基準	ICCV '23	github
2022-10-14	SQA3D	Bigai	SQA3D：位於3D場景中的問題	ICLR '23	github
2021-12-20	Scanqa	Riken AIP	Scanqa：3D問題回答空間場景的理解	CVPR '23	github
2020-12-3	scan2cap	tum	Scan2CAP：RGB-D掃描中的上下文感知的密集字幕	CVPR '21	github
2020-8-23	Referit3d	斯坦福大學	推薦3D：現實場景中細粒3D對象識別的神經聽眾	ECCV '20	github
2019-12-18	掃描	tum	掃描：3D對像在RGB-D中使用自然語言進行定位	ECCV '20	github

貢獻

您的貢獻始終歡迎！

如果我不確定它們是否對3D LLM很棒，您可以通過添加來投票給它們，我會保持一些拉動請求嗎？給他們。

如果您對此有任何疑問，請通過[email protected]或微信ID與MXZ1997112聯繫。

星曆史

引用

如果您發現此存儲庫有用，請考慮引用本文：

@misc{ma2024llmsstep3dworld,
      title={When LLMs step into the 3D World: A Survey and Meta-Analysis of 3D Tasks via Multi-modal Large Language Models}, 
      author={Xianzheng Ma and Yash Bhalgat and Brandon Smart and Shuai Chen and Xinghui Li and Jian Ding and Jindong Gu and Dave Zhenyu Chen and Songyou Peng and Jia-Wang Bian and Philip H Torr and Marc Pollefeys and Matthias Nießner and Ian D Reid and Angel X. Chang and Iro Laina and Victor Adrian Prisacariu},
      year={2024},
      journal={arXiv preprint arXiv:2405.10255},
}