Inglês | 简体中文
Changelog - Relatar problemas - Recurso de solicitação
1
cartões de conteúdo2
pano de conteúdo multimodal3
modelos multimodais locais purosQMedia é um mecanismo de pesquisa de conteúdo de IA multimídia de código aberto que fornece métodos ricos de extração de informações para texto/imagem e conteúdo de vídeo curto. Ele integra texto/imagem não estruturado e informações curtas de vídeo para construir um sistema multimodal de perguntas e respostas de conteúdo RAG. O objetivo é compartilhar e trocar ideias sobre a criação de conteúdo de IA de forma aberta. problemas
Compartilhe QMedia com seus amigos.
Desperte novas ideias para criação de conteúdo
Junte-se à nossa comunidade Discord! | |
---|---|
Junte-se ao nosso grupo WeChat! |
Web Service
inspirado na versão web XHS, implementado usando a pilha de tecnologia Typescript, Next.js, TailwindCSS e Shadcn/UIRAG Search/Q&A Service
e Image/Text/Video Model Service
implementado usando a estrutura Python e aplicativos LlamaIndexRAG Search/Q&A Service
e Image/Text/Video Model Service
podem ser implantados separadamente para implantação flexível com base nos recursos do usuário e podem ser incorporados em outros sistemas para extração de conteúdo de imagem/texto e vídeo. Implantação de vários tipos de modelos localmente Separação da camada de aplicação RAG, facilitando a substituição de diferentes modelos Gerenciamento do ciclo de vida do modelo local, configurável para liberação manual ou automática para reduzir a carga do servidor
Modelos de linguagem :
Modelos de incorporação de recursos :
Modelos de imagem :
Modelos de compreensão visual:
Modelos de vídeo
Serviços QMedia: Dependendo da disponibilidade de recursos, eles podem ser implantados localmente ou os serviços modelo podem ser implantados na nuvem
Serviço de modelo multimodal mm_server
:
Implantação de modelo multimodal e chamadas de API
Modelos Ollama LLM
Modelos de imagem
Modelos de vídeo
Modelos de incorporação de recursos
Serviço de pesquisa de conteúdo e perguntas e respostas mmrag_server
:
Exibição e consulta do cartão de conteúdo
Serviço de extração, incorporação e armazenamento de conteúdo de imagem/texto/vídeo curto
Serviço de recuperação de dados multimodais RAG
Serviço de perguntas e respostas de conteúdo
qmedia_web
: Idioma: TypeScript Framework: Next.js Estilo: Tailwind Componentes CSS: shadcn/ui mm_server
+ qmedia_web
+ mmrag_server
Exibição de conteúdo de página da web, pesquisa de conteúdo RAG e perguntas e respostas, serviço de modelo
# Start mm_server service
cd mm_server
source activate qllm
python main.py
# Start mmrag_server service
cd mmrag_server
source activate qmedia
python main.py
# Start qmedia_web service
cd qmedia_web
pnpm dev
mmrag_server
lerá pseudodados de assets/medias
e assets/mm_pseudo_data.json
e chamará mm_server
para extrair e estruturar as informações de texto/imagem e vídeos curtos em informações node
, que são então armazenado no db
. A recuperação e as perguntas e respostas serão baseadas nos dados do db
. # assets file structure
assets
├── mm_pseudo_data.json # Content card data
└── medias # Image/Video files
Substitua o conteúdo dos assets
e exclua o arquivo db
armazenado historicamente. assets/medias
contém arquivos de imagem/vídeo, que podem ser substituídos por seus próprios arquivos de imagem/vídeo. assets/mm_pseudo_data.json
contém dados do cartão de conteúdo, que podem ser substituídos pelos seus próprios dados do cartão de conteúdo. Após executar o serviço, o modelo irá extrair automaticamente as informações e armazená-las no db
.
Pode usar o serviço local de extração de informações de imagem/texto/vídeo mm_server
de forma independente. Ele pode ser usado como um serviço independente de codificação de imagem, codificação de texto, extração de transcrição de vídeo e OCR de imagem, acessível via API em qualquer cenário.
# Start mm_server service independently
cd mm_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
Conteúdo da API:
Pode usar mm_server
+ qmedia_web
juntos para realizar extração de conteúdo e recuperação RAG em um ambiente Python puro por meio de APIs.
# Start mmrag_server service independently
cd mmrag_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
Conteúdo da API:
QMedia
é licenciada sob licença MIT
Obrigado ao QAnything pelos fortes modelos de OCR.
Obrigado a llava-llama3 pelos modelos de visão llm fortes.