專案頁面 • Arxiv 論文 • 示範 • 常見問題 • 引文
ShapeGPT是一個統一且使用者友好的以形狀為中心的多模態語言模型,用於建立多模態語料庫並開發針對多個形狀任務的形狀感知語言模型。
大型語言模型的出現透過指令驅動的方法實現了靈活性,徹底改變了許多傳統的生成任務,但 3D 資料的大型模型,特別是在使用其他模式全面處理 3D 形狀方面,仍處於探索之中。透過實現基於指令的形狀生成,多功能多模態生成形狀模型可以使 3D 虛擬施工和網路輔助設計等各個領域受益匪淺。在這項工作中,我們提出了 ShapeGPT,一個包含形狀的多模態框架,利用強大的預訓練語言模型來解決多個與形狀相關的任務。具體來說,ShapeGPT採用單字-句子-段落框架將連續形狀離散為形狀詞,進一步將這些單字組裝為形狀句子,並將形狀與指導文本集成為多模態段落。為了學習這種形狀語言模型,我們使用三階段訓練方案,包括形狀表示、多模態對齊和基於指令的生成,來對齊形狀語言密碼本並學習這些模態之間複雜的相關性。大量實驗表明,ShapeGPT 在形狀相關任務中實現了可比較的效能,包括文字到形狀、形狀到文字、形狀完成和形狀編輯。
如果您發現我們的程式碼或論文有幫助,請考慮引用:
@misc { yin2023shapegpt ,
title = { ShapeGPT: 3D Shape Generation with A Unified Multi-modal Language Model } ,
author = { Fukun Yin and Xin Chen and Chi Zhang and Biao Jiang and Zibo Zhao and Jiayuan Fan and Gang Yu and Taihao Li and Tao Chen } ,
year = { 2023 } ,
eprint = { 2311.17618 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV }
}
感謝 T5 模型、Motion-GPT、Perceiver-IO 和 SDFusion,我們的程式碼部分借鑒了它們。我們的方法受到 Unified-IO、Michelangelo、ShapeCrafter、Pix2Vox 和 3DShape2VecSet 的啟發。
該代碼是根據 MIT 許可證分發的。
請注意,我們的程式碼依賴其他函式庫,包括 PyTorch3D 和 PyTorch Lightning,並使用資料集,每個資料集都有自己各自的許可證,也必須遵循這些許可證。