Download Qmedia - Download do código-fonte Qmedia

Qmedia

Outro código-fonte

1.0.0

Baixar

QMedia

Mecanismo de busca de conteúdo de IA projetado especificamente para criadores de conteúdo.

Inglês | 简体中文

Changelog - Relatar problemas - Recurso de solicitação

Principais recursos

Pesquise imagens/textos e materiais de vídeo curtos.
Analise com eficiência imagens/textos e conteúdos de vídeos curtos, integrando informações dispersas.
Fornecer fontes de conteúdo e decompor informações de imagem/texto e vídeos curtos, apresentando informações por meio de cartões de conteúdo.
Gere resultados de pesquisa personalizados com base nos interesses e necessidades do usuário a partir de imagens/textos e conteúdo de vídeo curto.
Implantação local, permitindo pesquisa de conteúdo offline e perguntas e respostas para dados privados.

Diretório

? Introdução
? visão geral dos recursos
- 1 cartões de conteúdo
- 2 pano de conteúdo multimodal
- 3 modelos multimodais locais puros
? instruções de instalação
- Instalação mm_server
- Instalação mmrag_server
- Instalação qmedia_web
️ Uso
- Uso Combinado
- Serviço de modelo independente
- multimodal local puro

? Introdução

QMedia é um mecanismo de pesquisa de conteúdo de IA multimídia de código aberto que fornece métodos ricos de extração de informações para texto/imagem e conteúdo de vídeo curto. Ele integra texto/imagem não estruturado e informações curtas de vídeo para construir um sistema multimodal de perguntas e respostas de conteúdo RAG. O objetivo é compartilhar e trocar ideias sobre a criação de conteúdo de IA de forma aberta. problemas

Compartilhe QMedia com seus amigos.

Desperte novas ideias para criação de conteúdo

	Junte-se à nossa comunidade Discord！
	Junte-se ao nosso grupo WeChat!

? Visão geral dos recursos

Cartões de conteúdo
- Exibir conteúdo de imagem/texto e vídeo na forma de cartões
- Web Service inspirado na versão web XHS, implementado usando a pilha de tecnologia Typescript, Next.js, TailwindCSS e Shadcn/UI
- RAG Search/Q&A Service e Image/Text/Video Model Service implementado usando a estrutura Python e aplicativos LlamaIndex
- O serviço Web, RAG Search/Q&A Service e Image/Text/Video Model Service podem ser implantados separadamente para implantação flexível com base nos recursos do usuário e podem ser incorporados em outros sistemas para extração de conteúdo de imagem/texto e vídeo.
RAG de conteúdo multimodal
- Pesquise imagens/textos e materiais de vídeo curtos.
- Extraia informações úteis de imagens/textos e conteúdo de vídeo curto com base nas consultas dos usuários para gerar respostas de alta qualidade.
- Apresentar fontes de conteúdo e o detalhamento de imagens/textos e informações curtas de vídeo por meio de cartões de conteúdo.
- A recuperação e as perguntas e respostas dependem da divisão de imagem/texto e conteúdo de vídeo curto, incluindo estilo de imagem, layout de texto, transcrição de vídeo curto, resumos de vídeo, etc.
- Apoie a pesquisa de conteúdo do Google.
Modelos multimodais locais puros
Implantação de vários tipos de modelos localmente Separação da camada de aplicação RAG, facilitando a substituição de diferentes modelos Gerenciamento do ciclo de vida do modelo local, configurável para liberação manual ou automática para reduzir a carga do servidor
Modelos de linguagem :
- Suporta troca de modelo local Ollama.
  - llama3:8b-instruct Implantação local leve de modelos LLM.
  - llama3:70b-instruct Oitavo lugar em modelos LLM de código aberto.
Modelos de incorporação de recursos :
- Incorporação de imagens: codificador CLIP Converta imagens em codificação de recursos de texto.
- Incorporação de texto: Codificador BGE Modelo incorporado multilíngue, convertendo texto em codificação de recursos, com modelos locais alinhados ao codificador GPT.
Modelos de imagem :
- Reconhecimento de OCR de texto de imagem: Qanything Sistema de perguntas e respostas da base de conhecimento local OCR
- Modelos de compreensão visual:
  - llava-llama3: modelo de compreensão visual de nível GPT-4V implantado localmente pela Ollama.
Modelos de vídeo
- Transcrição do vídeo:
  - Faster Whisper: Extraia rapidamente o conteúdo da transcrição de vídeo, pode ser executado na CPU local.
- Resumo de conteúdo de vídeo curto baseado em LLM
- Identificação de destaques em vídeos curtos
- Reconhecimento de tipos de estilo de vídeo curto
- Análise e detalhamento de conteúdo de vídeo curto

Planos futuros

Análise de conteúdo de vídeo curto de imagem/texto e detalhamento de conteúdo viral
Pesquisar imagem/texto/vídeo semelhante
Geração de conteúdo de imagem/texto do cartão
Edição de conteúdo de vídeo curto

? Instalação

Introdução à estrutura de arquivos

Serviços QMedia: Dependendo da disponibilidade de recursos, eles podem ser implantados localmente ou os serviços modelo podem ser implantados na nuvem

Instalação mm_server

Serviço de modelo multimodal mm_server :
- Implantação de modelo multimodal e chamadas de API
- Modelos Ollama LLM
- Modelos de imagem
- Modelos de vídeo
- Modelos de incorporação de recursos

Instalação mmrag_server

Serviço de pesquisa de conteúdo e perguntas e respostas mmrag_server :
- Exibição e consulta do cartão de conteúdo
- Serviço de extração, incorporação e armazenamento de conteúdo de imagem/texto/vídeo curto
- Serviço de recuperação de dados multimodais RAG
- Serviço de perguntas e respostas de conteúdo

Instalação qmedia_web

Serviço da Web qmedia_web : Idioma: TypeScript Framework: Next.js Estilo: Tailwind Componentes CSS: shadcn/ui

️ Uso

Uso Combinado

mm_server + qmedia_web + mmrag_server Exibição de conteúdo de página da web, pesquisa de conteúdo RAG e perguntas e respostas, serviço de modelo

Processo de inicialização do serviço:

 # Start mm_server service
cd mm_server
source activate qllm
python main.py

# Start mmrag_server service
cd mmrag_server
source activate qmedia
python main.py

# Start qmedia_web service
cd qmedia_web
pnpm dev

Usando funções por meio da página da Web Durante a fase de inicialização, mmrag_server lerá pseudodados de assets/medias e assets/mm_pseudo_data.json e chamará mm_server para extrair e estruturar as informações de texto/imagem e vídeos curtos em informações node , que são então armazenado no db . A recuperação e as perguntas e respostas serão baseadas nos dados do db .

Dados personalizados

 # assets file structure
assets
├── mm_pseudo_data.json # Content card data
└── medias # Image/Video files

Substitua o conteúdo dos assets e exclua o arquivo db armazenado historicamente. assets/medias contém arquivos de imagem/vídeo, que podem ser substituídos por seus próprios arquivos de imagem/vídeo. assets/mm_pseudo_data.json contém dados do cartão de conteúdo, que podem ser substituídos pelos seus próprios dados do cartão de conteúdo. Após executar o serviço, o modelo irá extrair automaticamente as informações e armazená-las no db .

Serviço de modelo independente

Pode usar o serviço local de extração de informações de imagem/texto/vídeo mm_server de forma independente. Ele pode ser usado como um serviço independente de codificação de imagem, codificação de texto, extração de transcrição de vídeo e OCR de imagem, acessível via API em qualquer cenário.

 # Start mm_server service independently
cd mm_server
python main.py

# uvicorn main:app --reload --host localhost --port 50110

Conteúdo da API:

http://localhost:50110/docs

texto alternativo

Serviço RAG Python puro/serviço de modelo

Pode usar mm_server + qmedia_web juntos para realizar extração de conteúdo e recuperação RAG em um ambiente Python puro por meio de APIs.

 # Start mmrag_server service independently
cd mmrag_server
python main.py

# uvicorn main:app --reload --host localhost --port 50110

Conteúdo da API:

http://localhost:50110/docs
http://localhost:8001/docs

texto alternativo

História das Estrelas

Licença

QMedia é licenciada sob licença MIT

Agradecimentos

Obrigado ao QAnything pelos fortes modelos de OCR.

Obrigado a llava-llama3 pelos modelos de visão llm fortes.

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2024-12-26
tamanho 38.5MB
Vindo de Github

Aplicativos Relacionados

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos

Qmedia