Descarga Qmedia - Descarga del código fuente Qmedia

Qmedia

Otro código fuente

1.0.0

Descargar

QMedia

Motor de búsqueda de contenido de IA diseñado específicamente para creadores de contenido.

Inglés | 简体中文

Registro de cambios - Informar problemas - Solicitar función

Características clave

Busque imágenes/texto y materiales de vídeo cortos.
Analice eficientemente contenidos de imágenes/textos y vídeos cortos, integrando información dispersa.
Proporcione fuentes de contenido y descomponga imágenes/texto e información de videos cortos, presentando información a través de tarjetas de contenido.
Genere resultados de búsqueda personalizados basados en los intereses y necesidades del usuario a partir de imágenes/texto y contenido de video corto.
Implementación local, que permite la búsqueda de contenido sin conexión y preguntas y respuestas sobre datos privados.

Directorio

? Introducción
? descripción general de funciones
- 1 tarjetas de contenido
- 2 trapos de contenido multimodal
- 3 modelos multimodales locales puros
? instrucciones de instalación
- Instalación de mm_server
- Instalación de mmrag_server
- Instalación de qmedia_web
️ Uso
- Uso combinado
- Servicio de modelo independiente
- multimodal local puro

? Introducción

QMedia es un motor de búsqueda de contenido de IA multimedia de código abierto que proporciona métodos de extracción de información enriquecidos para texto/imagen y contenido de video corto. Integra texto/imagen no estructurado e información de vídeo breve para crear un sistema de preguntas y respuestas de contenido RAG multimodal. El objetivo es compartir e intercambiar ideas sobre la creación de contenidos de IA de forma de código abierto. asuntos

Comparte QMedia con tus amigos.

Genera nuevas ideas para la creación de contenido

	¡Únete a nuestra comunidad de Discord!
	¡Únase a nuestro grupo WeChat!

? Descripción general de funciones

Tarjetas de contenido
- Mostrar contenido de imagen/texto y vídeo en forma de tarjetas.
- Web Service inspirado en la versión web XHS, implementado utilizando la pila tecnológica de Typescript, Next.js, TailwindCSS y Shadcn/UI.
- RAG Search/Q&A Service y Image/Text/Video Model Service implementados utilizando el marco Python y las aplicaciones LlamaIndex.
- El servicio web, RAG Search/Q&A Service y Image/Text/Video Model Service se pueden implementar por separado para una implementación flexible basada en los recursos del usuario, y se pueden integrar en otros sistemas para la extracción de contenido de imagen/texto y video.
RAG de Contenido Multimodal
- Busque imágenes/texto y materiales de vídeo cortos.
- Extraiga información útil de imágenes/texto y contenido de video corto basado en las consultas de los usuarios para generar respuestas de alta calidad.
- Presente fuentes de contenido y el desglose de imágenes/texto e información de videos cortos a través de tarjetas de contenido.
- La recuperación y las preguntas y respuestas se basan en el desglose de imágenes/texto y contenido de videos cortos, incluido el estilo de la imagen, el diseño del texto, la transcripción de videos cortos, los resúmenes de videos, etc.
- Admite la búsqueda de contenido de Google.
Modelos multimodales locales puros
Implementación de varios tipos de modelos localmente Separación de la capa de aplicación RAG, lo que facilita el reemplazo de diferentes modelos Gestión del ciclo de vida del modelo local, configurable para lanzamiento manual o automático para reducir la carga del servidor
Modelos de lenguaje :
- Admite el cambio de modelo local de Ollama.
  - llama3:8b-instruct Despliegue local ligero de modelos LLM.
  - llama3:70b-instruct Octavo lugar en modelos LLM de código abierto.
Modelos de incorporación de funciones :
- Incrustación de imágenes: Codificador CLIP Convierte imágenes a codificación de funciones de texto.
- Incrustación de texto: codificador BGE Modelo integrado multilingüe, que convierte texto en codificación de funciones, con modelos locales alineados con el codificador GPT.
Modelos de imagen :
- Reconocimiento de OCR de texto de imagen: Qanything Base de conocimiento local Sistema de preguntas y respuestas OCR
- Modelos de comprensión visual:
  - llava-llama3: modelo de comprensión visual de nivel GPT-4V implementado localmente por Ollama.
Modelos de vídeo
- Transcripción del vídeo:
  - Faster Whisper: extrae rápidamente contenido de transcripción de video, puede ejecutarse en la CPU local.
- Resumen de contenido de video corto basado en LLM
- Identificación de aspectos destacados en vídeos cortos.
- Reconocimiento de tipos de estilos de vídeos cortos.
- Análisis y desglose de contenido de vídeo corto.

Planes futuros

Imagen/Texto Análisis de contenido de video corto y desglose de contenido viral
Buscar imagen/texto/vídeo similar
Imagen de tarjeta/Generación de contenido de texto
Edición de contenido de vídeo corto

? Instalación

Introducción a la estructura de archivos

Servicios QMedia: Dependiendo de la disponibilidad de recursos, se pueden implementar localmente o los servicios modelo se pueden implementar en la nube.

Instalación de mm_server

Servicio de modelo multimodal mm_server :
- Implementación de modelos multimodales y llamadas API
- Ollama LLM modelos
- Modelos de imagen
- Modelos de vídeo
- Modelos de incorporación de características

Instalación de mmrag_server

Búsqueda de contenido y servicio de preguntas y respuestas mmrag_server :
- Visualización y consulta de tarjeta de contenido
- Servicio de extracción, incrustación y almacenamiento de contenido de imágenes/texto/vídeos cortos
- Servicio de recuperación de datos RAG multimodal
- Servicio de preguntas y respuestas sobre contenido

Instalación de qmedia_web

Servicio web qmedia_web : Idioma: TypeScript Marco: Next.js Estilo: Tailwind Componentes CSS: shadcn/ui

️ Uso

Uso combinado

mm_server + qmedia_web + mmrag_server Visualización de contenido de página web, búsqueda de contenido RAG y preguntas y respuestas, servicio de modelo

Proceso de inicio del servicio:

 # Start mm_server service
cd mm_server
source activate qllm
python main.py

# Start mmrag_server service
cd mmrag_server
source activate qmedia
python main.py

# Start qmedia_web service
cd qmedia_web
pnpm dev

Uso de funciones a través de la página web Durante la fase de inicio, mmrag_server leerá pseudodatos de assets/medias y assets/mm_pseudo_data.json , y llamará mm_server para extraer y estructurar la información de texto/imagen y videos cortos en información node , que luego se almacenado en la db . La recuperación y las preguntas y respuestas se basarán en los datos de la db .

Datos personalizados

 # assets file structure
assets
├── mm_pseudo_data.json # Content card data
└── medias # Image/Video files

Reemplace el contenido de assets y elimine el archivo db almacenado históricamente. assets/medias contiene archivos de imagen/vídeo, que pueden reemplazarse con sus propios archivos de imagen/vídeo. assets/mm_pseudo_data.json contiene datos de la tarjeta de contenido, que pueden reemplazarse con sus propios datos de la tarjeta de contenido. Después de ejecutar el servicio, el modelo extraerá automáticamente la información y la almacenará en la db .

Servicio de modelo independiente

Puede utilizar el servicio de extracción de información de imagen/texto/vídeo local mm_server de forma independiente. Se puede utilizar como un servicio independiente de codificación de imágenes, codificación de texto, extracción de transcripción de video y OCR de imágenes, accesible a través de API en cualquier escenario.

 # Start mm_server service independently
cd mm_server
python main.py

# uvicorn main:app --reload --host localhost --port 50110

Contenido API:

http://localhost:50110/docs

texto alternativo

Servicio RAG puro de Python/servicio de modelo

Puede usar mm_server + qmedia_web juntos para realizar la extracción de contenido y la recuperación de RAG en un entorno Python puro a través de API.

 # Start mmrag_server service independently
cd mmrag_server
python main.py

# uvicorn main:app --reload --host localhost --port 50110

Contenido API:

http://localhost:50110/docs
http://localhost:8001/docs

texto alternativo

Historia de las estrellas

Licencia

QMedia tiene licencia MIT.

Expresiones de gratitud

Gracias a QAnything por sus potentes modelos de OCR.

Gracias a llama-llama3 por los sólidos modelos de visión llm.

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2024-12-26
tamaño 38.5MB
Proviene de Github

Aplicaciones relacionadas

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo

Qmedia