الإنجليزية | 简体中文
سجل التغيير - الإبلاغ عن المشكلات - ميزة الطلب
1
بطاقة محتوى2
خرقة محتوى متعدد الوسائط3
نماذج متعددة الوسائط محلية خالصةQMedia هو محرك بحث مفتوح المصدر لمحتوى الوسائط المتعددة يعمل بالذكاء الاصطناعي، ويوفر طرقًا غنية لاستخراج المعلومات للنص/الصورة ومحتوى الفيديو القصير. فهو يدمج النص/الصورة غير المنظمة ومعلومات الفيديو القصيرة لإنشاء نظام أسئلة وأجوبة لمحتوى RAG متعدد الوسائط. الهدف هو مشاركة وتبادل الأفكار حول إنشاء محتوى الذكاء الاصطناعي بطريقة مفتوحة المصدر. مشاكل
شارك QMedia مع أصدقائك.
إثارة أفكار جديدة لإنشاء المحتوى
انضم إلى مجتمع Discord الخاص بنا! | |
---|---|
انضم إلى مجموعة WeChat الخاصة بنا! |
Web Service
مستوحاة من إصدار الويب XHS، ويتم تنفيذها باستخدام مجموعة التكنولوجيا من Typescript وNext.js وTailwindCSS وShadcn/UIRAG Search/Q&A Service
Image/Text/Video Model Service
باستخدام إطار عمل Python وتطبيقات LlamaIndexRAG Search/Q&A Service
Image/Text/Video Model Service
بشكل منفصل للنشر المرن استنادًا إلى موارد المستخدم، ويمكن تضمينها في أنظمة أخرى لاستخراج محتوى الصورة/النص والفيديو. نشر أنواع مختلفة من النماذج محليًا. الانفصال عن طبقة تطبيق RAG، مما يسهل استبدال النماذج المختلفة. إدارة دورة حياة النموذج المحلي، قابلة للتكوين للإصدار اليدوي أو التلقائي لتقليل حمل الخادم
نماذج اللغة :
نماذج تضمين الميزات :
نماذج الصور :
نماذج الفهم البصري:
نماذج الفيديو
خدمات QMedia: اعتمادًا على توفر الموارد، يمكن نشرها محليًا أو يمكن نشر الخدمات النموذجية في السحابة
خدمة النماذج المتعددة الوسائط mm_server
:
نشر النماذج المتعددة الوسائط واستدعاءات واجهة برمجة التطبيقات (API).
نماذج أولاما LLM
نماذج الصور
نماذج الفيديو
نماذج تضمين الميزة
خدمة البحث عن المحتوى والأسئلة والأجوبة mmrag_server
:
عرض بطاقة المحتوى والاستعلام عنها
خدمة استخراج محتوى الصور/النصوص/الفيديو القصير وتضمينه وتخزينه
خدمة استرجاع البيانات متعددة الوسائط RAG
خدمة أسئلة وأجوبة المحتوى
qmedia_web
: اللغة: إطار عمل TypeScript: Next.js التصميم: مكونات Tailwind CSS: shadcn/ui mm_server
+ qmedia_web
+ mmrag_server
عرض محتوى صفحة الويب، بحث RAG للمحتوى والأسئلة والأجوبة، الخدمة النموذجية
# Start mm_server service
cd mm_server
source activate qllm
python main.py
# Start mmrag_server service
cd mmrag_server
source activate qmedia
python main.py
# Start qmedia_web service
cd qmedia_web
pnpm dev
mmrag_server
البيانات الزائفة من assets/medias
assets/mm_pseudo_data.json
، ويستدعي mm_server
لاستخراج المعلومات من النص/الصورة ومقاطع الفيديو القصيرة وتنظيمها في معلومات node
، والتي يتم بعد ذلك المخزنة في db
. سيتم الاسترجاع والأسئلة والأجوبة بناءً على البيانات الموجودة في db
. # assets file structure
assets
├── mm_pseudo_data.json # Content card data
└── medias # Image/Video files
استبدل المحتويات الموجودة في assets
واحذف ملف db
المخزن تاريخياً. تحتوي assets/medias
على ملفات صور/فيديو، والتي يمكن استبدالها بملفات الصور/الفيديو الخاصة بك. تحتوي assets/mm_pseudo_data.json
على بيانات بطاقة المحتوى، والتي يمكن استبدالها ببيانات بطاقة المحتوى الخاصة بك. بعد تشغيل الخدمة، سيقوم النموذج تلقائيًا باستخراج المعلومات وتخزينها في db
.
يمكن استخدام خدمة استخراج معلومات الصور/النصوص/الفيديو المحلية mm_server
بشكل مستقل. يمكن استخدامه كترميز مستقل للصور، وترميز النص، واستخراج نسخ الفيديو، وخدمة التعرف الضوئي على الحروف للصور، ويمكن الوصول إليها عبر واجهة برمجة التطبيقات في أي سيناريو.
# Start mm_server service independently
cd mm_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
محتوى واجهة برمجة التطبيقات:
يمكن استخدام mm_server
+ qmedia_web
معًا لإجراء استخراج المحتوى واسترجاع RAG في بيئة Python خالصة عبر واجهات برمجة التطبيقات.
# Start mmrag_server service independently
cd mmrag_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
محتوى واجهة برمجة التطبيقات:
QMedia
مرخصة بموجب ترخيص MIT
بفضل QAnything لنماذج التعرف الضوئي على الحروف القوية.
شكرًا لـ llava-llama3 على نماذج رؤية قوية في مجال العلوم.