يحقق Gemini AI اختراقات جديدة في المعالجة البصرية: تحليل متزامن للفيديو في الوقت الفعلي وصور ثابتة-مقال

الكاتب：Eve Cole وقت التحديث：2025-01-28 16:00:02

قامت Google Gemini AI مؤخرًا باختراقات كبيرة. يتيح Andychat Gemini AI معالجة الفيديو الحقيقي والصور الثابتة في نفس الوقت ، مما يكسر القيود المفروضة على الذكاء الاصطناعي التقليدي الذي لا يمكنه سوى معالجة المدخلات المرئية المفردة ، وفتح إمكانيات جديدة لتطبيق الذكاء الاصطناعي في مجالات متعددة. لا يمكن أن تعزز هذه التقنية تجربة المستخدم فحسب ، بل يمكن أيضًا تزويد المطورين بأدوات جديدة لمساعدتهم على بناء تطبيق مرئي أقوى.

لقد حقق Gewing Gemini AI مؤخرًا اختراقًا تكنولوجيًا رائعًا. لا يتم عرض ظهور هذه الميزة من خلال النظام الأساسي السائد لـ Google ، ولكن يتم عرضه من خلال تطبيق تجريبي يسمى "anychat".

لا تتيح هذه القدرة الجديدة لـ Gemini AI مشاهدة مقاطع الفيديو في الوقت الفعلي فحسب ، بل تعمل أيضًا على تحليل الصور الثابتة في نفس الوقت ، مما يكسر القيود التي لا يمكن للذكاء الاصطناعي السابق معالجة المدخلات المرئية المفردة إلا. قال Ahsen Khaliq ، الشخص المسؤول عن التعلم الآلي لـ Gradio ، في مقابلة: "الآن يمكنك التحدث إلى مقطع الفيديو الحقيقي الخاص بك وأي صورة تريد مشاركتها أثناء التحدث مع الذكاء الاصطناعي."

لقد حقق نجاح أنشات قدرات المعالجة المتعددة هذه ، والتي ترجع إلى بنية الشبكة العصبية المتقدمة من Gemini AI. على الرغم من وجود هذه القدرة في واجهة برمجة تطبيقات Gemini ، إلا أنها لم يتم فتحها للمستخدمين العاديين في تطبيقات Google الرسمية. يمكن للعديد من منصات الذكاء الاصطناعى ، بما في ذلك chatgpt ، معالجة مدخلات مدخل فردية فقط ، ويتم حظر تدفقات الفيديو الخاصة بالوقت الحقيقي عند تحميل الصور.

التطبيق المحتمل لهذه التكنولوجيا واسعة جدا. يمكن للطلاب عرض المشكلات الرياضية في الوقت الفعلي وإظهار الكتب المدرسية إلى الجوزاء للحصول على إرشادات تدريجية. يمكن للفنانين مشاركة الأعمال والصور المرجعية التي يتم إنشاؤها ، وذلك للحصول على ردود فعل حقيقية في التكوين والمهارات.

إن الاختراق الفني لـ Andechat ليس عرضيًا. من خلال هذه الأذونات الخاصة ، يمكن لـ anychat تتبع وتحليل مدخلات بصرية متعددة في نفس الوقت دون التأثير على تماسك الحوار. يمكن للمطورين نسخ هذه القدرة باستخدام رمز ببساطة وإنشاء منصات مخصصة تدعم تدفقات الفيديو وتحميل الصور.

على الرغم من أن anychat لا يزال في المرحلة التجريبية ، إلا أنه يوضح بنجاح الإمكانات الحقيقية للمعالجة البصرية المتعددة الذكاء الاصطناعي. سواء في مجالات الرعاية الطبية أو الهندسة أو التعليم ، فإن قدرة الجوزاء الجديدة ستجلب تغييرات تخريبية.

anychat project: anychathttps: //huggingface.co/spaces/akhaliq/anychat

نقاط:

يدرك Gemini AI مزامنة الفيديو الحقيقي والصور الثابتة لكسر القيود السابقة.

تعرض منصة Andychat إمكانات التطبيق الواسعة للمنظمة العفوية في مجالات التعليم والفن وغيرها من المجالات.

يمكن للمطورين استخدام تقنية Gemini بسهولة لبناء تطبيقات الذكاء الاصطناعي الخاص بهم.

وبشكل عام ، فإن قدرة المعالجة البصرية متعددة الأطراف من Gemini AI ، يمثل قفزة كبيرة في تكنولوجيا الذكاء الاصطناعي. من المعتقد أنه مع النضج المستمر للتكنولوجيا ، ستلعب Gemini AI إمكاناتها الضخمة في المزيد من المجالات ، مما يجلب تجربة حياة أكثر ملاءمة وأكثر ذكاءً للمجتمع البشري.