تقارير محرر Downcodes: حققت فرق البحث من الجامعة التقنية في براغ في جمهورية التشيك والمعهد الفيدرالي السويسري للتكنولوجيا في زيوريخ مؤخرًا تقدمًا كبيرًا، حيث طوروا طريقة مبتكرة تسمى WildGaussians، والتي تعمل على تحسين أداء الرش الغوسي ثلاثي الأبعاد (3D Gaussian sputtering) بشكل ملحوظ. 3DGS) في معالجة القدرات غير المنظمة في مجموعات الصور. يتيح هذا التقدم التكنولوجي إمكانية تحقيق عمليات إعادة بناء ثلاثية الأبعاد عالية الجودة باستخدام مجموعات صور غير منظمة مثل الصور التاريخية المجمعة على الإنترنت، مما يوفر إمكانيات جديدة لمجالات مثل الواقع الافتراضي والواقع المعزز ورؤية الكمبيوتر. يحل WildGaussians بشكل أساسي مشكلات مثل تغيرات المظهر والإضاءة وحجب الأجسام المتحركة من خلال مكونين أساسيين: نمذجة المظهر ونمذجة عدم اليقين، ويعمل على مجموعات البيانات الصعبة مثل NeRF On-the-go ومجموعات بيانات سياحة الصور، وهي ممتازة وحقيقية. وصلت سرعة عرض الوقت أيضًا إلى 117 صورة رائعة في الثانية.
قدم فريق بحث من الجامعة التقنية في براغ في جمهورية التشيك وETH Zurich في سويسرا مؤخرًا طريقة مبتكرة تسمى WildGaussians، والتي تعمل على تحسين قدرات تقنية Gaussian sputtering (3DGS) بشكل كبير عند معالجة مجموعات الصور غير المنظمة. يجعل هذا الإنجاز من الممكن تحقيق إعادة بناء ثلاثية الأبعاد عالية الجودة من مجموعات الصور غير المنظمة مثل الصور التاريخية التي تم جمعها من الإنترنت.
يحل WildGaussians بشكل أساسي تحديين رئيسيين: تغيرات المظهر والإضاءة، ومشاكل انسداد الأجسام المتحركة. واجه فريق البحث هذه التحديات من خلال تطوير مكونين أساسيين: نمذجة المظهر ونمذجة عدم اليقين.
تسمح نمذجة المظهر للنظام بمعالجة الصور الملتقطة في ظروف مختلفة، مثل أوقات أو طقس مختلف. تستخدم الطريقة تضمينًا قابلاً للتدريب لكل صورة تدريب وتوزيع غاوسي، وتقوم بضبط لون التوزيع الغوسي وفقًا لظروف التصوير المقابلة من خلال شبكة عصبية (MLP).
تساعد نمذجة عدم اليقين في تحديد وتجاهل الانسدادات مثل المشاة أو السيارات أثناء التدريب. استخدم الباحثون ميزات DINOv2 المدربة مسبقًا لتحسين قدرة النظام على التكيف مع تغيرات المناظر الطبيعية.
فيما يتعلق بالأداء، يتفوق WildGaussians على الأساليب الحديثة الحالية في مجموعات البيانات الصعبة مثل مجموعات بيانات NeRF On-the-go وPhoto Tourism. وفي الوقت نفسه، حققت هذه الطريقة سرعة عرض في الوقت الفعلي تبلغ 117 صورة في الثانية على وحدة معالجة الرسوميات Nvidia RTX4090.
على الرغم من أن WildGaussians قد حقق تقدمًا كبيرًا في مجال إعادة البناء ثلاثي الأبعاد، إلا أن الباحثين يعترفون بأن الطريقة لا تزال بها بعض القيود، مثل تمثيل النقاط البارزة على الأشياء. إنهم يخططون لمواصلة تحسين هذا النهج في المستقبل من خلال دمج تقنيات مثل نمذجة الانتشار.
يفتح هذا البحث إمكانيات جديدة لإعادة بناء ثلاثية الأبعاد قوية ومتعددة الاستخدامات وواقعية من البيانات الصاخبة التي ينشئها المستخدم، والتي من المتوقع أن يكون لها تأثير عميق في مجالات متعددة مثل الواقع الافتراضي والواقع المعزز ورؤية الكمبيوتر.
يمثل ظهور WildGaussians قفزة مهمة في تكنولوجيا إعادة البناء ثلاثية الأبعاد، وتوفر كفاءتها ودقتها العالية أساسًا متينًا للعديد من التطبيقات المستقبلية. ويأمل محرر Downcodes أن يتم تحسين هذه التقنية بشكل أكبر في المستقبل لتقدم لنا تجربة رقمية أكثر واقعية وغامرة.