Téléchargement Qmedia - Téléchargement du code source Qmedia

Qmedia

Autre code source

1.0.0

Télécharger

QMédia

Moteur de recherche de contenu IA conçu spécifiquement pour les créateurs de contenu.

Anglais | 简体中文

Journal des modifications - Signaler des problèmes - Fonctionnalité de demande

Principales fonctionnalités

Recherchez des images/textes et de courtes vidéos.
Analysez efficacement les images/textes et les contenus vidéo courts, en intégrant des informations dispersées.
Fournissez des sources de contenu et décomposez des images/textes et de courtes informations vidéo, en présentant les informations via des cartes de contenu.
Générez des résultats de recherche personnalisés en fonction des intérêts et des besoins des utilisateurs à partir d'images/de textes et de courts contenus vidéo.
Déploiement local, permettant la recherche de contenu hors ligne et les questions-réponses pour les données privées.

Annuaire

? Introduction
? aperçu des fonctionnalités
- 1 cartes de contenu
- 2 chiffons de contenu multimodal
- 3 modèles multimodaux locaux purs
? instructions d'installation
- Installation du serveur mm_server
- Installation de mmrag_server
- qmedia_webInstallation
️ Utilisation
- Utilisation combinée
- Service de modèle indépendant
- multimodal local pur

? Introduction

QMedia est un moteur de recherche de contenu multimédia IA open source qui fournit de riches méthodes d'extraction d'informations pour le texte/image et le contenu vidéo court. Il intègre du texte/image non structuré et de courtes informations vidéo pour créer un système de questions et réponses de contenu RAG multimodal. L’objectif est de partager et d’échanger des idées sur la création de contenu IA de manière open source. problèmes

Partagez QMedia avec vos amis.

Suscitez de nouvelles idées pour la création de contenu

	Rejoignez notre communauté Discord！
	Rejoignez notre groupe WeChat !

? Présentation des fonctionnalités

Cartes de contenu
- Afficher du contenu image/texte et vidéo sous forme de cartes
- Web Service inspiré de la version Web XHS, implémenté à l'aide de la pile technologique de Typescript, Next.js, TailwindCSS et Shadcn/UI
- RAG Search/Q&A Service et Image/Text/Video Model Service implémentés à l'aide du framework Python et des applications LlamaIndex.
- Le service Web, RAG Search/Q&A Service et Image/Text/Video Model Service peuvent être déployés séparément pour un déploiement flexible basé sur les ressources utilisateur, et peuvent être intégrés dans d'autres systèmes pour l'extraction de contenu image/texte et vidéo.
RAG de contenu multimodal
- Recherchez des images/textes et de courtes vidéos.
- Extrayez des informations utiles à partir d’images/de textes et de courts contenus vidéo en fonction des requêtes des utilisateurs pour générer des réponses de haute qualité.
- Présentez les sources de contenu et la répartition des informations image/texte et vidéo courte via des cartes de contenu.
- La récupération et les questions-réponses reposent sur la répartition du contenu image/texte et vidéo court, y compris le style de l'image, la mise en page du texte, la courte transcription vidéo, les résumés vidéo, etc.
- Prend en charge la recherche de contenu Google.
Modèles multimodaux locaux purs
Déploiement local de différents types de modèles Séparation de la couche d'application RAG, facilitant le remplacement de différents modèles Gestion locale du cycle de vie des modèles, configurable pour une publication manuelle ou automatique afin de réduire la charge du serveur
Modèles de langage :
- Prend en charge la commutation de modèle Ollama locale.
  - llama3:8b-instruct Déploiement local léger de modèles LLM.
  - llama3:70b-instruct Huitième place dans les modèles LLM open source.
Modèles d'intégration de fonctionnalités :
- Incorporation d'images : CLIP Encoder Convertit les images en codage de fonction de texte.
- Incorporation de texte : modèle intégré multilingue de BGE Encoder, convertissant le texte en codage de fonctionnalités, avec des modèles locaux alignés sur GPT Encoder.
Modèles d'images :
- Reconnaissance OCR de texte d'image : base de connaissances locale Qanything Système de questions et réponses OCR
- Modèles de compréhension visuelle :
  - llava-llama3 : modèle de compréhension visuelle de niveau GPT-4V déployé localement par Ollama.
Modèles vidéo
- Transcription vidéo :
  - Faster Whisper : extrayez rapidement le contenu de transcription vidéo, peut fonctionner sur le processeur local.
- Résumé du contenu vidéo court basé sur LLM
- Identification des moments forts dans de courtes vidéos
- Reconnaissance des types de styles vidéo courts
- Analyse et répartition du contenu vidéo court

Projets futurs

Analyse du contenu vidéo court image/texte et répartition du contenu viral
Rechercher une image/texte/vidéo similaire
Génération de contenu d’image/texte de carte
Édition de contenu vidéo court

? Installation

Présentation de la structure des fichiers

Services QMedia : en fonction de la disponibilité des ressources, ils peuvent être déployés localement ou les services modèles peuvent être déployés dans le cloud.

Installation du serveur mm_server

Service de modèle multimodal mm_server :
- Déploiement de modèles multimodaux et appels d'API
- Modèles Ollama LLM
- Modèles d'images
- Modèles vidéo
- Modèles d’intégration de fonctionnalités

Installation de mmrag_server

Service de recherche de contenu et de questions-réponses mmrag_server :
- Affichage et requête de la carte de contenu
- Service d'extraction, d'intégration et de stockage de contenu vidéo/texte/image courte
- Service de récupération de données multimodales RAG
- Service de questions et réponses sur le contenu

qmedia_webInstallation

Service Web qmedia_web : Langage : TypeScript Framework : Next.js Style : Tailwind Composants CSS : shadcn/ui

️ Utilisation

Utilisation combinée

mm_server + qmedia_web + mmrag_server Affichage du contenu de la page Web, recherche RAG de contenu et questions-réponses, service de modèle

Processus de démarrage du service :

 # Start mm_server service
cd mm_server
source activate qllm
python main.py

# Start mmrag_server service
cd mmrag_server
source activate qmedia
python main.py

# Start qmedia_web service
cd qmedia_web
pnpm dev

Utilisation de fonctions via la page Web Pendant la phase de démarrage, mmrag_server lira les pseudo données de assets/medias et assets/mm_pseudo_data.json , et appellera mm_server pour extraire et structurer les informations du texte/image et des courtes vidéos en informations node , qui sont ensuite stocké dans la db . La récupération et les questions et réponses seront basées sur les données de la db .

Données personnalisées

 # assets file structure
assets
├── mm_pseudo_data.json # Content card data
└── medias # Image/Video files

Remplacez le contenu des assets et supprimez le fichier db historiquement stocké. assets/medias contiennent des fichiers image/vidéo, qui peuvent être remplacés par vos propres fichiers image/vidéo. assets/mm_pseudo_data.json contient des données de carte de contenu, qui peuvent être remplacées par vos propres données de carte de contenu. Après avoir exécuté le service, le modèle extraira automatiquement les informations et les stockera dans la db .

Service de modèle indépendant

Peut utiliser le service d’extraction d’informations locales d’image/texte/vidéo mm_server de manière indépendante. Il peut être utilisé comme service autonome d’encodage d’images, d’encodage de texte, d’extraction de transcription vidéo et d’OCR d’images, accessible via API dans n’importe quel scénario.

 # Start mm_server service independently
cd mm_server
python main.py

# uvicorn main:app --reload --host localhost --port 50110

Contenu de l'API :

http://localhost:50110/docs

texte alternatif

Service RAG Python pur/service de modèle

Peut utiliser mm_server + qmedia_web ensemble pour effectuer l'extraction de contenu et la récupération RAG dans un environnement Python pur via des API.

 # Start mmrag_server service independently
cd mmrag_server
python main.py

# uvicorn main:app --reload --host localhost --port 50110

Contenu de l'API :

http://localhost:50110/docs
http://localhost:8001/docs

texte alternatif

Histoire des étoiles

Licence

QMedia est sous licence MIT

Remerciements

Merci à QAnything pour les modèles OCR puissants.

Merci à lllava-llama3 pour les modèles de vision LLM forts.

Développer

Informations supplémentaires

Version 1.0.0
Type Autre code source
Date de mise à jour 2024-12-26
taille 38.5MB
Provenant de Github

Applications connexes

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
waymo open dataset

Autre code source

December 2023 Update
SmartTube

Autre code source

24.71 Stable
Sunamu

Autre code source

Release 2.2.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout

Qmedia