英語| 簡體中文
變更日誌 - 報告問題 - 請求功能
1
內容卡2
多模式內容抹布3
純本地多式聯運模型QMedia是一款開源多媒體AI內容搜尋引擎,為文字/圖像和短影片內容提供豐富的資訊擷取方法。它整合非結構化文字/圖像和短視訊訊息,建構多模態RAG內容問答系統。目的是以開源的方式分享和交流人工智慧內容創作的想法。問題
與您的朋友分享 QMedia。
激發內容創作的新想法
加入我們的 Discord 社群! | |
---|---|
加入我們的微信群組吧! |
Web Service
受 XHS 網頁版啟發,使用 Typescript、Next.js、TailwindCSS 和 Shadcn/UI 技術堆疊實現RAG Search/Q&A Service
和Image/Text/Video Model Service
RAG Search/Q&A Service
、 Image/Text/Video Model Service
可以單獨部署,根據使用者資源靈活部署,也可以嵌入其他系統進行圖文視訊內容擷取。 本地部署各類模型 與RAG應用層分離,方便更換不同模型 本機模型生命週期管理,可設定手動或自動發布,減少伺服器負載
語言模型:
特徵嵌入模型:
圖像模型:
視覺理解模型:
視訊模型
QMedia服務:根據資源可用性,可以部署在本地,也可以將模型服務部署在雲端
多模式模型服務mm_server
:
多模態模型部署與API調用
奧拉馬 LLM 模型
影像模型
視訊模型
特徵嵌入模型
內容搜尋和問答服務mmrag_server
:
內容卡展示及查詢
圖片/文字/短影片內容擷取、嵌入、儲存服務
多模態資料 RAG 檢索服務
內容問答服務
qmedia_web
:語言:TypeScript 框架:Next.js 樣式:Tailwind CSS 元件:shadcn/uimm_server
+ qmedia_web
+ mmrag_server
網頁內容展示、內容RAG搜尋與問答、模型服務
# Start mm_server service
cd mm_server
source activate qllm
python main.py
# Start mmrag_server service
cd mmrag_server
source activate qmedia
python main.py
# Start qmedia_web service
cd qmedia_web
pnpm dev
mmrag_server
會從assets/medias
和assets/mm_pseudo_data.json
中讀取偽數據,並調用mm_server
將文本/圖像和短視頻中的信息提取並結構化為node
信息,然後存儲在db
中。檢索和問答將基於db
中的資料。 # assets file structure
assets
├── mm_pseudo_data.json # Content card data
└── medias # Image/Video files
取代assets
中的內容,並刪除歷史儲存的db
檔案。 assets/medias
包含圖片/影片文件,可以替換為自己的圖片/影片檔案。 assets/mm_pseudo_data.json
包含內容卡數據,可以替換為您自己的內容卡數據。運行服務後,模型將自動提取資訊並將其儲存在db
中。
可以獨立使用mm_server
本地圖文影片資訊擷取服務。它可以用作獨立的圖像編碼、文字編碼、視訊轉錄提取和圖像 OCR 服務,可在任何場景下透過 API 存取。
# Start mm_server service independently
cd mm_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
API內容:
可以結合使用mm_server
+ qmedia_web
透過API在純Python環境中執行內容擷取和RAG檢索。
# Start mmrag_server service independently
cd mmrag_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
API內容:
QMedia
已獲得 MIT 許可
感謝 QAnything 提供的強大 OCR 模型。
感謝 llava-llama3 強大的 llm 視覺模型。