أصدرت NVIDIA مخططًا جديدًا للبحث عن الفيديو وتلخيصه بتقنية الذكاء الاصطناعي، وهي تقنية ثورية ستحدث ثورة في الطريقة التي نحلل بها الفيديو ونفهمه. يستفيد هذا المخطط من الذكاء الاصطناعي التوليدي ونماذج اللغة المرئية (VLM) ونماذج اللغة الكبيرة (LLM) لتحقيق فهم عميق وتفاعل طبيعي لمحتوى الفيديو، متجاوزًا قيود تحليل الفيديو التقليدي وتزويد المستخدمين بتجربة فيديو تفاعلية غير مسبوقة. سيشرح محرر Downcodes الوظائف الأساسية وسيناريوهات التطبيق لهذه التقنية بالتفصيل.
أصدرت NVIDIA مؤخرًا مخططًا جديدًا للذكاء الاصطناعي للبحث عن الفيديو وتلخيصه، وسيغير هذا الحل التقني قيود تحليل الفيديو التقليدي تمامًا. يختلف الحل الجديد عن النماذج الثابتة السابقة التي يمكنها التعرف فقط على الكائنات المعدة مسبقًا، ويحقق فهمًا متعمقًا لمحتوى الفيديو والتفاعل الطبيعي من خلال الجمع بين الذكاء الاصطناعي التوليدي ونموذج اللغة المرئية (VLM) ونموذج اللغة الكبير (LLM).
تم بناء هذا النظام على بنية الخدمات الصغيرة NVIDIA NIM، وتكمن ميزته الأساسية في قدراته القوية على فهم الفيديو. من خلال الجمع بين تقنيات مثل معالجة تجزئة الفيديو، وتوليد الوصف الكثيف، وإنشاء الرسم البياني للمعرفة، يمكن للنظام أن يفهم بدقة محتوى الفيديو الطويل جدًا ويحلله. يمكن للمستخدمين إنشاء ملخص الفيديو، والأسئلة والأجوبة التفاعلية، ومراقبة الأحداث المخصصة لتدفقات الفيديو في الوقت الفعلي من خلال واجهة REST API البسيطة.
من منظور البنية التقنية، يحتوي الحل على مكونات رئيسية متعددة: معالج التدفق مسؤول عن التفاعل والمزامنة بين المكونات؛ وتضمن NeMo Guardrails امتثال مدخلات المستخدم؛ ويكون خط أنابيب VLM المستند إلى NVIDIA DeepStream SDK مسؤولاً عن فك تشفير الفيديو وميزاته الاستخراج؛ تقوم قاعدة البيانات بتخزين النتائج المتوسطة، ويتم دمج وحدة context-Aware RAG لإنشاء ملخص موحد؛ وتلتقط وحدة Graph-RAG العلاقات المعقدة في الفيديو من خلال قاعدة بيانات الرسم البياني.
في التطبيقات العملية، يقوم النظام أولاً بتقطيع الفيديو إلى أجزاء أصغر، وإنشاء أوصاف كثيفة من خلال VLM، ثم يستخدم LLM لتلخيص النتائج وتحليلها. بالنسبة للبث المباشر، يمكن للنظام معالجة مقاطع الفيديو بشكل مستمر وإنشاء ملخصات في الوقت الفعلي. وفي الوقت نفسه، من خلال إنشاء رسم بياني معرفي، يمكن للنظام التقاط المعلومات المعقدة بدقة في مقاطع الفيديو ودعم تفاعلات أعمق بين الأسئلة والأجوبة.
سيحدث هذا التقدم التكنولوجي ثورة في سيناريوهات مثل المصانع والمستودعات ومحلات البيع بالتجزئة والمطارات ومراكز النقل. يمكن لفرق العمليات الحصول على رؤى تحليلية أكثر ثراءً عبر الفيديو من خلال تفاعلات اللغة الطبيعية لاتخاذ قرارات أكثر ذكاءً.
حاليًا، فتحت NVIDIA تطبيقات الوصول المبكر لهذا الحل التكنولوجي. يمكن للمطورين اختيار النموذج المناسب من خلال كتالوج واجهة برمجة التطبيقات (API) الذي توفره NVIDIA، إما باستخدام الخدمات التي تستضيفها NVIDIA أو اختيار حل النشر المحلي. سيساعد خيار النشر المرن هذا المؤسسات على إنشاء حلول تحليلات فيديو مخصصة بناءً على الاحتياجات الفعلية.
مع استمرار تقدم تكنولوجيا الذكاء الاصطناعي، نشهد تغيرات هائلة في مجال تحليل الفيديو. إن إطلاق أحدث الحلول التكنولوجية من NVIDIA سيؤدي بلا شك إلى تسريع تطبيق تحليل الفيديو الذكي في جميع مناحي الحياة.
التفاصيل: https://developer.nvidia.com/blog/build-a-video-search-and-summarization-agent-with-nvidia-ai-blueprint
بشكل عام، يمثل بحث الفيديو المدعم بالذكاء الاصطناعي ومخطط الملخص من NVIDIA قفزة كبيرة إلى الأمام في تقنية تحليل الفيديو الذكية، وستجلب وظائفها القوية وطرق نشرها المرنة قيمة كبيرة لمختلف الصناعات. تتمتع هذه التكنولوجيا بآفاق تطبيق واسعة وتستحق التطلع إلى تطورها المستقبلي.