Inglés | 简体中文
Registro de cambios - Informar problemas - Solicitar función
1
tarjetas de contenido2
trapos de contenido multimodal3
modelos multimodales locales purosQMedia es un motor de búsqueda de contenido de IA multimedia de código abierto que proporciona métodos de extracción de información enriquecidos para texto/imagen y contenido de video corto. Integra texto/imagen no estructurado e información de vídeo breve para crear un sistema de preguntas y respuestas de contenido RAG multimodal. El objetivo es compartir e intercambiar ideas sobre la creación de contenidos de IA de forma de código abierto. asuntos
Comparte QMedia con tus amigos.
Genera nuevas ideas para la creación de contenido
¡Únete a nuestra comunidad de Discord! | |
---|---|
¡Únase a nuestro grupo WeChat! |
Web Service
inspirado en la versión web XHS, implementado utilizando la pila tecnológica de Typescript, Next.js, TailwindCSS y Shadcn/UI.RAG Search/Q&A Service
y Image/Text/Video Model Service
implementados utilizando el marco Python y las aplicaciones LlamaIndex.RAG Search/Q&A Service
y Image/Text/Video Model Service
se pueden implementar por separado para una implementación flexible basada en los recursos del usuario, y se pueden integrar en otros sistemas para la extracción de contenido de imagen/texto y video. Implementación de varios tipos de modelos localmente Separación de la capa de aplicación RAG, lo que facilita el reemplazo de diferentes modelos Gestión del ciclo de vida del modelo local, configurable para lanzamiento manual o automático para reducir la carga del servidor
Modelos de lenguaje :
Modelos de incorporación de funciones :
Modelos de imagen :
Modelos de comprensión visual:
Modelos de vídeo
Servicios QMedia: Dependiendo de la disponibilidad de recursos, se pueden implementar localmente o los servicios modelo se pueden implementar en la nube.
Servicio de modelo multimodal mm_server
:
Implementación de modelos multimodales y llamadas API
Ollama LLM modelos
Modelos de imagen
Modelos de vídeo
Modelos de incorporación de características
Búsqueda de contenido y servicio de preguntas y respuestas mmrag_server
:
Visualización y consulta de tarjeta de contenido
Servicio de extracción, incrustación y almacenamiento de contenido de imágenes/texto/vídeos cortos
Servicio de recuperación de datos RAG multimodal
Servicio de preguntas y respuestas sobre contenido
qmedia_web
: Idioma: TypeScript Marco: Next.js Estilo: Tailwind Componentes CSS: shadcn/ui mm_server
+ qmedia_web
+ mmrag_server
Visualización de contenido de página web, búsqueda de contenido RAG y preguntas y respuestas, servicio de modelo
# Start mm_server service
cd mm_server
source activate qllm
python main.py
# Start mmrag_server service
cd mmrag_server
source activate qmedia
python main.py
# Start qmedia_web service
cd qmedia_web
pnpm dev
mmrag_server
leerá pseudodatos de assets/medias
y assets/mm_pseudo_data.json
, y llamará mm_server
para extraer y estructurar la información de texto/imagen y videos cortos en información node
, que luego se almacenado en la db
. La recuperación y las preguntas y respuestas se basarán en los datos de la db
. # assets file structure
assets
├── mm_pseudo_data.json # Content card data
└── medias # Image/Video files
Reemplace el contenido de assets
y elimine el archivo db
almacenado históricamente. assets/medias
contiene archivos de imagen/vídeo, que pueden reemplazarse con sus propios archivos de imagen/vídeo. assets/mm_pseudo_data.json
contiene datos de la tarjeta de contenido, que pueden reemplazarse con sus propios datos de la tarjeta de contenido. Después de ejecutar el servicio, el modelo extraerá automáticamente la información y la almacenará en la db
.
Puede utilizar el servicio de extracción de información de imagen/texto/vídeo local mm_server
de forma independiente. Se puede utilizar como un servicio independiente de codificación de imágenes, codificación de texto, extracción de transcripción de video y OCR de imágenes, accesible a través de API en cualquier escenario.
# Start mm_server service independently
cd mm_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
Contenido API:
Puede usar mm_server
+ qmedia_web
juntos para realizar la extracción de contenido y la recuperación de RAG en un entorno Python puro a través de API.
# Start mmrag_server service independently
cd mmrag_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
Contenido API:
QMedia
tiene licencia MIT.
Gracias a QAnything por sus potentes modelos de OCR.
Gracias a llama-llama3 por los sólidos modelos de visión llm.