الوصف: هذه هي أداة Google Gemini Vision Pro المذهلة، وهي أداة قوية تقوم بمسح الصور ضوئيًا وإنشاء أوصاف باستخدام Gemini AI Pro Vision API، وتوفر تعليقات على الكلام. كما أنه يلتقط الصور باستخدام كاميرا الويب.
؟ مقدمة ؟
Google Gemini Vision Pro هو تطبيق متعدد الاستخدامات يجمع بين معالجة الصور والتعرف على الكلام وقدرات تحويل النص إلى كلام. باستخدام هذا التطبيق، يمكنك التقاط الصور باستخدام كاميرا الويب الخاصة بك، وتحويل الكلمات المنطوقة إلى نص، وإنشاء أوصاف للصور، وحتى إعادة الأوصاف إليك.
دليل التثبيت
الخطوة 1: استنساخ المستودع
git clone https://github.com/haseeb-heaven/Gemini-Vision-Pro
cd Gemini-Vision-Pro
الخطوة 2: تثبيت التبعيات
pip install -r requirements.txt
الخطوة 3: قم بتشغيل التطبيق
الخطوة 4: احصل على مفتاح Google Palm API وقم بإعداد التطبيق
- احصل على مفتاح Google Palm API.
- قم بزيارة عنوان URL التالي: Google AI Studio
- انقر فوق الزر "إنشاء مفتاح API" .
- المفتاح الذي تم إنشاؤه هو مفتاح API الخاص بك. يرجى التأكد من نسخه ولصقه في إعدادات التطبيق .
- يعد مفتاح واجهة برمجة التطبيقات (API) ضروريًا للعمل، يرجى التأكد من الحفاظ عليه آمنًا وعدم مشاركته مع أي شخص .
إعدادات الجوزاء للذكاء الاصطناعي:
أقسام الذكاء الاصطناعي
تتضمن أقسام الذكاء الاصطناعي الأساسية في هذا المشروع ما يلي:
- ؟ اكتشاف كاميرا الويب باستخدام WebRTC وOpenCV وPIL
- تحويل الكلام إلى نص باستخدام Google Cloud Speech-to-Text API
- ️ تحويل النص إلى كلام باستخدام Google Cloud Text-to-Speech API
- ؟ معالجة الصور باستخدام Gemini AI Pro Vision API
سمات
- ؟ اكتشاف كاميرا الويب مع التقاط الصور في الوقت الحقيقي
- تحويل الكلام إلى نص للكلمات المنطوقة
- ️ تحويل النص إلى كلام لإنشاء الأوصاف المنطوقة
- ؟ معالجة الصور باستخدام الذكاء الاصطناعي لتقديم وصف تفصيلي
- التسجيل باستخدام وحدة التسجيل في بايثون
- معالجة الأخطاء باستخدام معالجة الاستثناءات في بايثون
WebUI - عرض التطبيقات
يوتيوب التجريبي:
كاميرا ويب مع البث المباشر:
العرض التجريبي لـ Gemini Ai Vision مع الكائن كغطاء:
عرض Gemini Ai Vision باليد:
عرض Gemini Ai Vision مع الإيماءة:
الحزم المستخدمة
يعتمد هذا المشروع على حزم بايثون المختلفة، بما في ذلك:
- Streamlit - إطار عمل تطبيق ويب يستخدم لإنشاء التطبيق
- Streamlit Webrtc - يستخدم لالتقاط الصور من كاميرا الويب
- OpenCV - يستخدم لالتقاط صور كاميرا الويب
- PIL (وسادة) - تستخدم لمعالجة الصور وتحويلها
- gTTS (تحويل النص إلى كلام من Google) - يحول النص إلى كلام
- التعرف على الكلام - تحويل الكلام إلى نص
- google.cloud.speech - جزء من خدمات Google Cloud لتحويل الكلام إلى نص
الروابط والمراجع
اتبع هذه الروابط للحصول على المحتوى المتعلق بـ Google Gemini Vision Pro :
- استوديو جوجل للذكاء الاصطناعي
- جوجل جيميني فيجن برو
- جوجل الجوزاء ديب مايند
الإصدار
- الإصدار : 1.0: الإصدار الأولي
المساهمة
نحن نرحب بالمساهمات! يرجى اتباع إرشادات المساهمة الخاصة بنا للبدء.
رخصة
هذا المشروع مرخص بموجب ترخيص MIT - راجع ملف الترخيص للحصول على التفاصيل.
مؤلف
- هيفنهم
- التاريخ: 17-12-2023