أصدر معهد بكين تشى يوان للذكاء الاصطناعي (BAAI) نموذجًا متطورًا للجيل ثلاثي الأبعاد، See3D، والذي يستخدم مقاطع فيديو إنترنت ضخمة غير مسماة لتعلم وتحقيق إنشاء نماذج ثلاثية الأبعاد من مقاطع الفيديو، مما يمثل "شاهد الفيديو، احصل على تقدم كبير في مفهوم 3D. لا يحتاج نموذج See3D إلى الاعتماد على معلمات الكاميرا التقليدية والتعليقات التوضيحية ثلاثية الأبعاد، فمن خلال تقنية الحالة المرئية، يمكنه إنشاء صور متعددة العرض مع اتجاه كاميرا يمكن التحكم فيه وهندسة متسقة باستخدام الأدلة المرئية فقط في الفيديو، مما يقلل بشكل كبير من التكلفة وصعوبة التصوير. الحصول على بيانات ثلاثية الأبعاد، مما يوفر إمكانيات جديدة لتكنولوجيا الجيل ثلاثي الأبعاد.
يدعم نموذج See3D إنشاء نماذج ثلاثية الأبعاد من النص والعرض الفردي والعرض المتناثر، ويحتوي على وظائف التحرير ثلاثي الأبعاد والعرض الغوسي. تم فتح النموذج والكود والعرض التوضيحي لتسهيل الدراسة والتطبيق المتعمق من قبل الباحثين. يحتوي See3D على مجموعة واسعة من سيناريوهات التطبيق، بما في ذلك فتح عوالم تفاعلية ثلاثية الأبعاد، وإعادة البناء ثلاثي الأبعاد استنادًا إلى صور متفرقة، وتوليد عالم ثلاثي الأبعاد مفتوح، وتوليد ثلاثي الأبعاد قائم على العرض الفردي. وتكمن مزاياه الأساسية في قابلية التوسع في البيانات وإمكانية التحكم في الكاميرا والاتساق الهندسي. ومن خلال إنشاء مجموعة بيانات WebVi3D تحتوي على 16 مليون مقطع فيديو و320 مليون إطار من الصور، فقد حققت تحسينات كبيرة في تكنولوجيا الجيل ثلاثي الأبعاد.
قام فريق البحث ببناء مجموعة بيانات WebVi3D واسعة النطاق عن طريق تصفية بيانات الفيديو تلقائيًا، ومن خلال إضافة ضوضاء تعتمد على الوقت إلى بيانات الفيديو المقنعة، تم إنشاء إشارات مرئية ثنائية الأبعاد نقية لدعم التدريب على نماذج نشر العرض المتعدد القابلة للتطوير، مما أدى في النهاية إلى تحقيق ثلاثي الأبعاد بدون كاميرا. توليد الظروف. لقد جلب ظهور See3D أفكارًا جديدة إلى مجال الجيل ثلاثي الأبعاد، ومن المتوقع أن يعزز تطبيق بيانات التعليقات التوضيحية واسعة النطاق الخالية من الكاميرا في الأبحاث ثلاثية الأبعاد، ويقلل تكلفة جمع البيانات ثلاثية الأبعاد، ويضيق الفجوة مع البيانات المغلقة الحالية -مصدر الحلول ثلاثية الأبعاد.
تكمن مزايا See3D في قابلية توسيع البيانات وإمكانية التحكم في الكاميرا والاتساق الهندسي، ويمكنه إنشاء مشاهد تحت أي مسارات كاميرا معقدة والحفاظ على الاتساق الهندسي لعروض الإطار السابقة والتالية. وهذا يجعل See3D قابلاً للتطبيق على نطاق واسع في مجموعة متنوعة من تطبيقات الإنشاء ثلاثي الأبعاد.
من خلال توسيع حجم مجموعة البيانات، توفر See3D أفكارًا جديدة لتطوير تقنية الجيل ثلاثي الأبعاد، ومن المأمول أن يؤدي هذا العمل إلى تعزيز اهتمام مجتمع البحث ثلاثي الأبعاد ببيانات التعليقات التوضيحية واسعة النطاق الخالية من الكاميرا، وتقليل تكلفة الحصول على البيانات ثلاثية الأبعاد. وتقليص الفجوة الموجودة بين الحلول ثلاثية الأبعاد مغلقة المصدر.
عنوان المشروع: https://vision.baai.ac.cn/see3d
بشكل عام، جلب الإصدار المفتوح المصدر لنموذج See3D اختراقات تكنولوجية جديدة واتجاهات تطويرية في مجال الجيل ثلاثي الأبعاد، وستجلب ميزاته الفعالة والمريحة الابتكار إلى المزيد من سيناريوهات التطبيقات. ومن الجدير التطلع إلى تطويره بشكل أكبر المستقبل والتطبيقات.