Anglais | 简体中文
Journal des modifications - Signaler des problèmes - Fonctionnalité de demande
1
cartes de contenu2
chiffons de contenu multimodal3
modèles multimodaux locaux pursQMedia est un moteur de recherche de contenu multimédia IA open source qui fournit de riches méthodes d'extraction d'informations pour le texte/image et le contenu vidéo court. Il intègre du texte/image non structuré et de courtes informations vidéo pour créer un système de questions et réponses de contenu RAG multimodal. L’objectif est de partager et d’échanger des idées sur la création de contenu IA de manière open source. problèmes
Partagez QMedia avec vos amis.
Suscitez de nouvelles idées pour la création de contenu
Rejoignez notre communauté Discord! | |
---|---|
Rejoignez notre groupe WeChat ! |
Web Service
inspiré de la version Web XHS, implémenté à l'aide de la pile technologique de Typescript, Next.js, TailwindCSS et Shadcn/UIRAG Search/Q&A Service
et Image/Text/Video Model Service
implémentés à l'aide du framework Python et des applications LlamaIndex.RAG Search/Q&A Service
et Image/Text/Video Model Service
peuvent être déployés séparément pour un déploiement flexible basé sur les ressources utilisateur, et peuvent être intégrés dans d'autres systèmes pour l'extraction de contenu image/texte et vidéo. Déploiement local de différents types de modèles Séparation de la couche d'application RAG, facilitant le remplacement de différents modèles Gestion locale du cycle de vie des modèles, configurable pour une publication manuelle ou automatique afin de réduire la charge du serveur
Modèles de langage :
Modèles d'intégration de fonctionnalités :
Modèles d'images :
Modèles de compréhension visuelle :
Modèles vidéo
Services QMedia : en fonction de la disponibilité des ressources, ils peuvent être déployés localement ou les services modèles peuvent être déployés dans le cloud.
Service de modèle multimodal mm_server
:
Déploiement de modèles multimodaux et appels d'API
Modèles Ollama LLM
Modèles d'images
Modèles vidéo
Modèles d’intégration de fonctionnalités
Service de recherche de contenu et de questions-réponses mmrag_server
:
Affichage et requête de la carte de contenu
Service d'extraction, d'intégration et de stockage de contenu vidéo/texte/image courte
Service de récupération de données multimodales RAG
Service de questions et réponses sur le contenu
qmedia_web
: Langage : TypeScript Framework : Next.js Style : Tailwind Composants CSS : shadcn/ui mm_server
+ qmedia_web
+ mmrag_server
Affichage du contenu de la page Web, recherche RAG de contenu et questions-réponses, service de modèle
# Start mm_server service
cd mm_server
source activate qllm
python main.py
# Start mmrag_server service
cd mmrag_server
source activate qmedia
python main.py
# Start qmedia_web service
cd qmedia_web
pnpm dev
mmrag_server
lira les pseudo données de assets/medias
et assets/mm_pseudo_data.json
, et appellera mm_server
pour extraire et structurer les informations du texte/image et des courtes vidéos en informations node
, qui sont ensuite stocké dans la db
. La récupération et les questions et réponses seront basées sur les données de la db
. # assets file structure
assets
├── mm_pseudo_data.json # Content card data
└── medias # Image/Video files
Remplacez le contenu des assets
et supprimez le fichier db
historiquement stocké. assets/medias
contiennent des fichiers image/vidéo, qui peuvent être remplacés par vos propres fichiers image/vidéo. assets/mm_pseudo_data.json
contient des données de carte de contenu, qui peuvent être remplacées par vos propres données de carte de contenu. Après avoir exécuté le service, le modèle extraira automatiquement les informations et les stockera dans la db
.
Peut utiliser le service d’extraction d’informations locales d’image/texte/vidéo mm_server
de manière indépendante. Il peut être utilisé comme service autonome d’encodage d’images, d’encodage de texte, d’extraction de transcription vidéo et d’OCR d’images, accessible via API dans n’importe quel scénario.
# Start mm_server service independently
cd mm_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
Contenu de l'API :
Peut utiliser mm_server
+ qmedia_web
ensemble pour effectuer l'extraction de contenu et la récupération RAG dans un environnement Python pur via des API.
# Start mmrag_server service independently
cd mmrag_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
Contenu de l'API :
QMedia
est sous licence MIT
Merci à QAnything pour les modèles OCR puissants.
Merci à lllava-llama3 pour les modèles de vision LLM forts.