ShanghaiTech University ได้พัฒนาโมเดล AI ที่ก้าวล้ำที่เรียกว่า CLAY ซึ่งสามารถสร้างวัตถุ 3 มิติที่มีรายละเอียดตามคำอธิบายข้อความหรือรูปภาพสองมิติ ด้วยความเร็วในการสร้างที่มีประสิทธิภาพและผลผลิตคุณภาพสูง CLAY ได้แสดงศักยภาพที่ยอดเยี่ยมในด้านการสร้างแบบจำลอง 3 มิติ และคาดว่าจะปฏิวัติอุตสาหกรรมต่างๆ เช่น การพัฒนาเกม การผลิตภาพยนตร์ และการพิมพ์ 3 มิติ แกนหลักของโมเดล CLAY อยู่ที่ตัวเข้ารหัสอัตโนมัติแบบแปรผันหลายความละเอียดและหม้อแปลงกระจาย โดยสามารถประมวลผลเนื้อหา 3 มิติได้โดยตรงโดยไม่ต้องแปลงเป็นภาพ 2 มิติ และสนับสนุนให้ผู้ใช้ควบคุมผลลัพธ์ที่สร้างขึ้นอย่างแม่นยำผ่านรูปร่างที่กำหนดเองหรือกล่องขอบเขต ซึ่งแสดงความยืดหยุ่นอันทรงพลัง
นักวิทยาศาสตร์จาก ShanghaiTech University เพิ่งพัฒนาแบบจำลองปัญญาประดิษฐ์ที่เรียกว่า CLAY ซึ่งสามารถสร้างวัตถุ 3 มิติที่มีรายละเอียดจากคำอธิบายข้อความหรือภาพ 2 มิติ เมื่อเปรียบเทียบกับเทคโนโลยีก่อนหน้านี้ CLAY ประสบความสำเร็จอย่างมากในด้านคุณภาพและความหลากหลายของวัตถุ 3 มิติที่สร้างขึ้น
แกนหลักของโมเดล CLAY ประกอบด้วยตัวเข้ารหัสอัตโนมัติแบบแปรผันหลายความละเอียด (VAE) และหม้อแปลงกระจาย (DiT) VAE มีหน้าที่รับผิดชอบในการเข้ารหัสรูปทรงเรขาคณิต 3 มิติในระดับรายละเอียดที่แตกต่างกันลงในพื้นที่แฝง ในขณะที่ DiT มีหน้าที่รับผิดชอบในการสร้างรูปทรงเรขาคณิตเหล่านี้ แตกต่างจากระบบอื่นๆ มากมาย CLAY สามารถประมวลผลเนื้อหา 3 มิติได้โดยตรงโดยไม่ต้องแปลงเป็นภาพ 2 มิติก่อน
ข้อมูลการฝึกของ CLAY มีโมเดล 3 มิติมากกว่า 500,000 โมเดล ครอบคลุมวัตถุหลากหลายประเภท ตั้งแต่สิ่งของธรรมดาๆ ในชีวิตประจำวันไปจนถึงสิ่งมีชีวิตแฟนตาซีที่ซับซ้อน นอกจากนี้ CLAY ยังมีความสามารถในการควบคุมผ่านการป้อนข้อมูลเพิ่มเติม ผู้ใช้สามารถควบคุมผลลัพธ์ที่สร้างขึ้นได้อย่างแม่นยำโดยการระบุรูปร่างคร่าวๆ (เช่น โครงสร้าง voxel, point cloud) หรือ bounding box ความยืดหยุ่นนี้ช่วยให้ CLAY สร้างฉากในเมืองทั้งหมดและแม้แต่สร้างโมเดล 3D ที่มีรายละเอียดขึ้นมาใหม่จากภาพร่างที่วาดด้วยมือ
เมื่อเปรียบเทียบกับระบบอื่นๆ (เช่น Shap-E, DreamFusion, Wonder3D) CLAY แสดงให้เห็นข้อได้เปรียบที่ชัดเจน ไม่ว่าข้อความจะถูกแปลงเป็น 3D หรือรูปภาพถูกแปลงเป็น 3D CLAY ก็สามารถสร้างรูปทรงเรขาคณิตที่สม่ำเสมอมากขึ้น พื้นผิวที่เรียบเนียนขึ้น และรายละเอียดที่ละเอียดยิ่งขึ้น นอกจากนี้ CLAY ยังสร้างเนื้อหา 3D คุณภาพสูงได้อย่างรวดเร็วอย่างไม่น่าเชื่อ โดยใช้เวลาประมาณ 45 วินาที ในขณะที่ระบบเปรียบเทียบบางระบบอาจใช้เวลาหลายชั่วโมงในการปรับให้เหมาะสม
CLAY มีศักยภาพการใช้งานที่หลากหลาย รวมถึงการพัฒนาเกม การผลิตภาพยนตร์ และการพิมพ์ 3 มิติ อย่างไรก็ตาม นักวิจัยตระหนักถึงความเสี่ยงที่อาจเกิดขึ้นจากเนื้อหาเสมือนจริงที่สร้างโดย AI ดังนั้นพวกเขาจึงวางแผนที่จะเพิ่มมาตรการรักษาความปลอดภัยเพิ่มเติมเพื่อให้แน่ใจว่ามีการใช้งานอย่างมีความรับผิดชอบ
ในอนาคต นักวิจัยยังวางแผนที่จะขยายข้อมูลการฝึกอบรม ปรับปรุงคุณภาพของแบบจำลอง และบูรณาการการสร้างรูปทรงเรขาคณิตและการสังเคราะห์วัสดุให้เป็นแบบจำลองเดียวเพื่อให้บรรลุฟังก์ชันการทำงานที่ครอบคลุมมากขึ้น สามารถเข้าถึงเวอร์ชันของ CLAY ได้ผ่านบริการ 3D-Gen Rodin
ทางเข้าผลิตภัณฑ์: https://hyperhuman.deemos.com/rodin
การเกิดขึ้นของโมเดล CLAY ถือเป็นการก้าวกระโดดครั้งสำคัญในเทคโนโลยีการสร้างแบบจำลอง 3 มิติ ความสามารถในการสร้างที่มีประสิทธิภาพและมีคุณภาพสูง และโอกาสในการใช้งานที่กว้างขวาง ทำให้โมเดลนี้กลายเป็นเครื่องมือสำคัญในด้านการสร้างเนื้อหา 3 มิติในอนาคต ในอนาคต ด้วยการพัฒนาและปรับปรุงเทคโนโลยีอย่างต่อเนื่อง CLAY จะนำนวัตกรรมและความเป็นไปได้มาสู่ทุกสาขาอาชีพอย่างแน่นอน