تقدم هذه المقالة نموذج Video ReCap، وهو عبارة عن تقنية مفتوحة المصدر لتوليد ترجمة الفيديو قادرة على إنشاء ترجمات فيديو هرمية تغطي أطوال فيديو تتراوح من ثانية واحدة إلى ساعتين. يعتمد النموذج بنية لغة فيديو متكررة ويتضمن ثلاث وحدات أساسية: أداة تشفير الفيديو، ومحاذاة لغة الفيديو، ووحدة فك ترميز النص العودية، ويمكنه فهم محتوى الفيديو بأطوال زمنية ومستويات تجريد مختلفة وإنشاء أوصاف دقيقة وغنية بالطبقات. وتُظهر بنيته التكرارية مزايا كبيرة في إنشاء أوصاف الفقرات وملخصات الفيديو، ويمكنه تحسين تأثير أسئلة وأجوبة الفيديو الطويلة، مما يحقق اختراقات جديدة في مجالات فهم الفيديو وإنشاء المحتوى.
نموذج Video ReCap عبارة عن تقنية مفتوحة المصدر لتوليد ترجمة الفيديو والتي يمكنها معالجة مقاطع الفيديو من ثانية واحدة إلى ساعتين وإنشاء ترجمات فيديو ذات طبقات على مستويات مختلفة. باستخدام بنية لغة الفيديو العودية، بما في ذلك ثلاث وحدات: أداة تشفير الفيديو، ومحاذاة لغة الفيديو، ووحدة فك ترميز النص العودية، يستطيع النموذج فهم مقاطع الفيديو بأطوال زمنية مختلفة ومستويات تجريد مختلفة وإنشاء ترجمات دقيقة وغنية لوصف الفيديو. توضح التجارب أهمية البنى العودية لإنشاء أوصاف المقاطع وملخصات الفيديو. بالإضافة إلى ذلك، يمكن لترجمات الفيديو الهرمية التي تم إنشاؤها بواسطة هذا النموذج أن تحسن بشكل كبير تأثير أسئلة الفيديو الطويلة والإجابة عليها بناءً على مجموعة بيانات EgoSchema.وبشكل عام، يُظهر نموذج Video ReCap إمكانات كبيرة في فهم الفيديو وتطبيقه بفضل إمكاناته الفعالة لتوليد الترجمة وبنيته الهرمية، مما يوفر اتجاهات جديدة ودعمًا فنيًا للبحث والتطوير في المجالات ذات الصلة. كما أن ميزة المصدر المفتوح الخاصة بها تسهل على المزيد من الباحثين والمطورين المشاركة والترويج المشترك لتقدم هذه التكنولوجيا وتحسينها.