หน้าโครงการ • เอกสาร Arxiv • การสาธิต • คำถามที่พบบ่อย • ข้อมูลอ้างอิง
ShapeGPT คือโมเดลภาษามัลติโมดัลที่เน้นรูปร่าง เป็นศูนย์กลาง และ ใช้งานง่าย เพื่อสร้างคลังข้อมูลหลายโมดัล และพัฒนาโมเดลภาษาที่รับรู้รูปร่างใน งานรูปร่างต่างๆ
การเกิดขึ้นของแบบจำลองภาษาขนาดใหญ่ ซึ่งทำให้เกิดความยืดหยุ่นผ่านแนวทางที่ขับเคลื่อนด้วยคำสั่ง ได้ปฏิวัติงานสร้างแบบดั้งเดิมจำนวนมาก แต่แบบจำลองขนาดใหญ่สำหรับข้อมูล 3 มิติ โดยเฉพาะอย่างยิ่งในการจัดการรูปร่าง 3 มิติอย่างครอบคลุมด้วยรูปแบบอื่น ๆ ยังไม่ได้รับการสำรวจ ด้วยการบรรลุการสร้างรูปร่างตามคำสั่ง โมเดลรูปร่างที่สร้างหลายรูปแบบที่หลากหลายจะได้รับประโยชน์อย่างมากในด้านต่างๆ เช่น การสร้างสามมิติเสมือนจริง และการออกแบบโดยใช้เครือข่ายช่วย ในงานนี้ เรานำเสนอ ShapeGPT ซึ่งเป็นเฟรมเวิร์กหลายรูปแบบที่รวมรูปร่างไว้เพื่อใช้ประโยชน์จากโมเดลภาษาที่ได้รับการฝึกอบรมล่วงหน้าที่แข็งแกร่งเพื่อจัดการกับงานที่เกี่ยวข้องกับรูปร่างต่างๆ โดยเฉพาะอย่างยิ่ง ShapeGPT ใช้กรอบงานคำ-ประโยค-ย่อหน้าเพื่อแยกรูปร่างที่ต่อเนื่องกันให้เป็นคำที่มีรูปร่าง ประกอบคำเหล่านี้เพิ่มเติมสำหรับประโยครูปร่าง รวมทั้งผสานรวมรูปร่างเข้ากับข้อความแนะนำสำหรับย่อหน้าหลายรูปแบบ เพื่อเรียนรู้โมเดลภาษารูปร่างนี้ เราใช้แผนการฝึกอบรมสามขั้นตอน ซึ่งรวมถึงการแสดงรูปร่าง การจัดตำแหน่งหลายรูปแบบ และการสร้างตามคำสั่ง เพื่อจัดแนวสมุดรหัสภาษารูปร่างและเรียนรู้ความสัมพันธ์ที่ซับซ้อนระหว่างรูปแบบเหล่านี้ การทดลองอย่างกว้างขวางแสดงให้เห็นว่า ShapeGPT บรรลุประสิทธิภาพที่เทียบเคียงได้ในงานที่เกี่ยวข้องกับรูปร่าง รวมถึงการแปลงข้อความเป็นรูปร่าง รูปร่างเป็นข้อความ การสร้างรูปร่างให้สมบูรณ์ และการแก้ไขรูปร่าง
หากคุณพบว่ารหัสหรือเอกสารของเรามีประโยชน์ โปรดพิจารณาการอ้างอิง:
@misc { yin2023shapegpt ,
title = { ShapeGPT: 3D Shape Generation with A Unified Multi-modal Language Model } ,
author = { Fukun Yin and Xin Chen and Chi Zhang and Biao Jiang and Zibo Zhao and Jiayuan Fan and Gang Yu and Taihao Li and Tao Chen } ,
year = { 2023 } ,
eprint = { 2311.17618 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CV }
}
ต้องขอบคุณโมเดล T5, Motion-GPT, Perceiver-IO และ SDFusion โค้ดของเราจึงยืมมาจากโมเดลเหล่านี้บางส่วน แนวทางของเราได้รับแรงบันดาลใจจาก Unified-IO, Michelangelo, ShapeCrafter, Pix2Vox และ 3DShape2VecSet
รหัสนี้เผยแพร่ภายใต้ใบอนุญาตของ MIT
โปรดทราบว่าโค้ดของเราขึ้นอยู่กับไลบรารีอื่นๆ รวมถึง PyTorch3D และ PyTorch Lightning และใช้ชุดข้อมูลที่แต่ละชุดมีใบอนุญาตของตนเองซึ่งต้องปฏิบัติตามด้วย