عيون جي بي تي
أعطيت عيون GPT-4. "眼观六路،耳听八方"
وإليك ما فعلته:
- إضافة بعض البيانات إلى نموذج الرؤية
- منح الوصول إلى كاميرا الذكاء الاصطناعي
- طرحت عليه أسئلة حول المشهد
- حددت الأشياء
- لقد بحثت في الويب للحصول على معلومات
- استخدم هذه المعلومات للإجابة بدقة
شاهده واحصل على 3 أسئلة صحيحة 100%!
- تويتر https://twitter.com/mckaywrigley/status/1651291367224807424?s=20
- يوتيوب https://www.youtube.com/watch?v=w-wxguIs-0I
هذه الحزمة هي برامج دعائية ؟؟؟
https://github.com/sponsors/Charmve?frequency=one-time&sponsor=Charmve
كان هذا الريبو متاحًا فقط للجهات الراعية على GitHub Sponsors حتى وصلت إلى 15 جهة راعية.
تعرف على المزيد حول برامج الرعاية على github.com/sponsorware/docs؟.
التقنيات المستخدمة
- الواجهة الأمامية: رد فعل
- واجهة برمجة تطبيقات تحليل الصور: نماذج TensorFlow - MobileNet
- واجهة برمجة تطبيقات إنشاء النص: واجهة برمجة تطبيقات GPT
تثبيت
- استنساخ المستودع:
git clone https://github.com/Charmve/gpt-eyes.git
- انتقل إلى دليل المشروع:
cd gpt-eyes
- تثبيت التبعيات:
npm install
إعدادات
- أنشئ حسابًا واحصل على مفاتيح API لنماذج TensorFlow - MobileNet وGPT API.
- قم بتحديث ملف التكوين باستخدام مفاتيح API الخاصة بك:
- نماذج TensorFlow - MobileNet:
/path/to/config.js
- واجهة برمجة تطبيقات GPT:
/path/to/config.js
الاستخدام
- ابدأ تشغيل خادم التطوير:
npm start
- افتح متصفحك وقم بزيارة:
http://localhost:3000
كيف يعمل
- تقوم كاميرا الجهاز بتحليل الصورة.
- يستخدم التطبيق TensorFlow Models - MobileNet API لتحليل الصورة واستخراج معلومات الكائن.
- يرسل التطبيق معلومات الكائن التي تم تحليلها إلى GPT API.
- تقوم واجهة برمجة تطبيقات GPT بإنشاء نص يصف الكائن الذي تم تحليله.
- يعرض التطبيق الصورة التي تم تحليلها والنص الذي تم إنشاؤه.