อังกฤษ | 简体中文
บันทึกการเปลี่ยนแปลง - รายงานปัญหา - ขอคุณสมบัติ
1
ใบ2
เศษผ้าเนื้อหาต่อเนื่องหลายรูปแบบ3
โมเดลท้องถิ่นล้วนๆQMedia เป็นเครื่องมือค้นหาเนื้อหา AI มัลติมีเดียแบบโอเพ่นซอร์ส ซึ่งนำเสนอวิธีการดึงข้อมูลที่หลากหลายสำหรับข้อความ/รูปภาพ และวิดีโอสั้น ๆ โดยผสานรวมข้อมูลข้อความ/รูปภาพที่ไม่มีโครงสร้างและวิดีโอสั้นเพื่อสร้างระบบถามตอบเนื้อหา RAG แบบหลายรูปแบบ จุดมุ่งหมายคือการแบ่งปันและแลกเปลี่ยนความคิดเห็นเกี่ยวกับการสร้างเนื้อหา AI ในลักษณะโอเพ่นซอร์ส ปัญหา
แบ่งปัน QMedia กับเพื่อนของคุณ
จุดประกายแนวคิดใหม่ๆ ในการสร้างเนื้อหา
เข้าร่วมชุมชน Discord ของเรา! | |
---|---|
เข้าร่วมกลุ่ม WeChat ของเรา! |
Web Service
ที่ได้รับแรงบันดาลใจจากเวอร์ชันเว็บ XHS ใช้งานโดยใช้เทคโนโลยีสแต็กของ Typescript, Next.js, TailwindCSS และ Shadcn/UIRAG Search/Q&A Service
และ Image/Text/Video Model Service
ใช้งานโดยใช้เฟรมเวิร์ก Python และแอปพลิเคชัน LlamaIndexRAG Search/Q&A Service
และ Image/Text/Video Model Service
สามารถปรับใช้แยกกันได้เพื่อการปรับใช้ที่ยืดหยุ่นตามทรัพยากรของผู้ใช้ และสามารถฝังลงในระบบอื่นๆ สำหรับการแยกเนื้อหารูปภาพ/ข้อความและวิดีโอ การปรับใช้โมเดลประเภทต่างๆ ในเครื่อง การแยกจากชั้นแอปพลิเคชัน RAG ทำให้ง่ายต่อการแทนที่รุ่นต่างๆ การจัดการวงจรการใช้งานโมเดลในเครื่อง กำหนดค่าได้สำหรับการเผยแพร่ด้วยตนเองหรืออัตโนมัติเพื่อลดภาระของเซิร์ฟเวอร์
โมเดลภาษา :
คุณลักษณะการฝังโมเดล :
โมเดลรูปภาพ :
โมเดลความเข้าใจด้วยภาพ:
โมเดลวิดีโอ
บริการ QMedia: ขึ้นอยู่กับความพร้อมของทรัพยากร สามารถปรับใช้ภายในเครื่องหรือบริการแบบจำลองสามารถปรับใช้ในระบบคลาวด์
บริการโมเดลต่อเนื่องหลายรูปแบบ mm_server
:
การปรับใช้โมเดลหลายรูปแบบและการเรียก API
รุ่น Ollama LLM
โมเดลรูปภาพ
โมเดลวิดีโอ
ฟีเจอร์การฝังโมเดล
ค้นหาเนื้อหาและบริการถามตอบ mmrag_server
:
การแสดงการ์ดเนื้อหาและแบบสอบถาม
บริการแยกเนื้อหารูปภาพ/ข้อความ/วิดีโอสั้น การฝัง และการจัดเก็บ
บริการดึงข้อมูล RAG ต่อเนื่องหลายรูปแบบ
บริการถามตอบเนื้อหา
qmedia_web
: ภาษา: TypeScript Framework: Next.js จัดแต่งทรงผม: ส่วนประกอบ Tailwind CSS: shadcn/ui mm_server
+ qmedia_web
+ mmrag_server
การแสดงเนื้อหาเว็บเพจ, การค้นหาเนื้อหา RAG และถามตอบ, บริการโมเดล
# Start mm_server service
cd mm_server
source activate qllm
python main.py
# Start mmrag_server service
cd mmrag_server
source activate qmedia
python main.py
# Start qmedia_web service
cd qmedia_web
pnpm dev
mmrag_server
จะอ่านข้อมูลหลอกจาก assets/medias
และ assets/mm_pseudo_data.json
และเรียก mm_server
เพื่อแยกและจัดโครงสร้างข้อมูลจากข้อความ/รูปภาพ และวิดีโอสั้นลงในข้อมูล node
ซึ่งก็คือ เก็บไว้ใน db
การดึงข้อมูลและการถามตอบจะขึ้นอยู่กับข้อมูลใน db
# assets file structure
assets
├── mm_pseudo_data.json # Content card data
└── medias # Image/Video files
แทนที่เนื้อหาใน assets
และลบไฟล์ db
ที่เก็บไว้ในอดีต assets/medias
มีไฟล์รูปภาพ/วิดีโอ ซึ่งสามารถแทนที่ด้วยไฟล์รูปภาพ/วิดีโอของคุณเองได้ assets/mm_pseudo_data.json
มีข้อมูลการ์ดเนื้อหา ซึ่งสามารถแทนที่ด้วยข้อมูลการ์ดเนื้อหาของคุณเองได้ หลังจากเรียกใช้บริการ โมเดลจะดึงข้อมูลโดยอัตโนมัติและจัดเก็บไว้ใน db
สามารถใช้บริการแยกข้อมูลรูปภาพ/ข้อความ/วิดีโอใน mm_server
ได้อย่างอิสระ สามารถใช้เป็นการเข้ารหัสรูปภาพแบบสแตนด์อโลน การเข้ารหัสข้อความ การแยกการถอดเสียงวิดีโอ และบริการ OCR รูปภาพ ซึ่งเข้าถึงได้ผ่าน API ในทุกสถานการณ์
# Start mm_server service independently
cd mm_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
เนื้อหา API:
สามารถใช้ mm_server
+ qmedia_web
ร่วมกันเพื่อดำเนินการแยกเนื้อหาและดึงข้อมูล RAG ในสภาพแวดล้อม Python ล้วนผ่าน API
# Start mmrag_server service independently
cd mmrag_server
python main.py
# uvicorn main:app --reload --host localhost --port 50110
เนื้อหา API:
QMedia
ได้รับอนุญาตภายใต้ใบอนุญาต MIT
ขอบคุณ QAnything สำหรับโมเดล OCR ที่แข็งแกร่ง
ขอขอบคุณ llava-llama3 สำหรับโมเดลการมองเห็น llm ที่แข็งแกร่ง