английский | 简体中文
Журнал изменений – Сообщить о проблемах – Запросить функцию
1
карточка контента2
тряпки с мультимодальным контентом3
чисто локальные мультимодальные моделиQMedia — это поисковая система мультимедийного AI-контента с открытым исходным кодом, предоставляющая богатые методы извлечения информации для текста/изображений и короткого видеоконтента. Он объединяет неструктурированный текст/изображение и короткую видеоинформацию для создания мультимодальной системы вопросов и ответов по контенту RAG. Цель состоит в том, чтобы делиться и обмениваться идеями по созданию контента с использованием ИИ с открытым исходным кодом. проблемы
Поделитесь QMedia с друзьями.
Искать новые идеи для создания контента
Присоединяйтесь к нашему сообществу Discord! | |
---|---|
Присоединяйтесь к нашей группе WeChat! |
Web Service
созданный на основе веб-версии XHS и реализованный с использованием стека технологий Typescript, Next.js, TailwindCSS и Shadcn/UI.RAG Search/Q&A Service
и Image/Text/Video Model Service
реализованные с использованием платформы Python и приложений LlamaIndex.RAG Search/Q&A Service
и Image/Text/Video Model Service
могут быть развернуты отдельно для гибкого развертывания в зависимости от пользовательских ресурсов и могут быть встроены в другие системы для извлечения изображения/текста и видеоконтента. Локальное развертывание различных типов моделей. Отделение от уровня приложений RAG, что упрощает замену разных моделей. Локальное управление жизненным циклом модели, настраиваемое для ручного или автоматического выпуска для снижения нагрузки на сервер.
Языковые модели :
Особенности моделей встраивания :
Модели изображений :
Модели визуального понимания:
Видео модели
Сервисы QMedia: в зависимости от доступности ресурсов их можно развернуть локально или сервисы моделей можно развернуть в облаке.
Сервис мультимодальной модели mm_server
:
Развертывание мультимодальной модели и вызовы API
Модели Ollama LLM
Модели изображений
Видео модели
Модели внедрения функций
Служба поиска контента и вопросов и ответов mmrag_server
:
Отображение и запрос карты контента
Служба извлечения, встраивания и хранения изображения/текста/короткого видеоконтента
Служба мультимодального извлечения данных RAG
Служба вопросов и ответов по контенту
qmedia_web
: Язык: TypeScript Платформа: Next.js Оформление: Tailwind CSS-компоненты: shadcn/ui mm_server
+ qmedia_web
+ mmrag_server
Отображение содержимого веб-страницы, поиск RAG по контенту и вопросы и ответы, служба моделей
# Start mm_server service
cd mm_server
source activate qllm
python main.py
# Start mmrag_server service
cd mmrag_server
source activate qmedia
python main.py
# Start qmedia_web service
cd qmedia_web
pnpm dev
mmrag_server
будет считывать псевдоданные из assets/medias
и assets/mm_pseudo_data.json
и вызывать mm_server
для извлечения и структурирования информации из текста/изображений и коротких видеороликов в информацию node
, которая затем хранится в db
. Поиск и вопросы и ответы будут основаны на данных в db
. # assets file structure
assets
├── mm_pseudo_data.json # Content card data
└── medias # Image/Video files
Замените содержимое assets
и удалите исторически сохраненный файл db
. assets/medias
содержат файлы изображений/видео, которые можно заменить вашими собственными файлами изображений/видео. assets/mm_pseudo_data.json
содержит данные карты контента, которые можно заменить вашими собственными данными карты контента. После запуска службы модель автоматически извлечет информацию и сохранит ее в db
.
Может самостоятельно использовать локальную службу извлечения изображений/текста/видео информации mm_server
. Его можно использовать как автономную службу кодирования изображений, кодирования текста, извлечения транскрипции видео и службы распознавания изображений, доступную через API в любом сценарии.
# Start mm_server service independently
cd mm_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
Содержимое API:
Можно использовать mm_server
+ qmedia_web
вместе для извлечения контента и получения RAG в чистой среде Python через API.
# Start mmrag_server service independently
cd mmrag_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
Содержимое API:
QMedia
имеет лицензию MIT License.
Спасибо QAnything за надежные модели оптического распознавания символов.
Спасибо llava-llama3 за хорошие модели зрения llm.