ดาวน์โหลด VSA - ดาวน์โหลดซอร์สโค้ด VSA

VSA

ซอร์สโค้ดอื่น ๆ

1.0.0

ดาวน์โหลด

ผู้ช่วยค้นหาด้วยวิสัยทัศน์: เสริมพลังให้กับโมเดลภาษาวิสัยทัศน์ในฐานะเครื่องมือค้นหาแบบหลายรูปแบบ

[หน้าโครงการ] [?กระดาษ] [?Hugging Face Space] [สวนสัตว์จำลอง] [บทนำ] [?วิดีโอ]

- ปล่อย

[29/10/2024] เราเผยแพร่โค้ดสำหรับการสาธิตในพื้นที่
[29/10/2024] Vision Search Assistant เปิดตัวบน arxiv

ตั้งค่า

โคลนที่เก็บนี้และไปที่โฟลเดอร์ VSA

 git clone https://github.com/cnzzx/VSA.git
cd VSA

สร้างสภาพแวดล้อม conda

 conda create -n vsa python=3.10
conda activate vsa

ติดตั้ง LLaVA

 cd models/LLaVA
pip install -e .

ติดตั้งข้อกำหนดอื่น ๆ

 pip install -r requirements.txt

การสาธิตท้องถิ่น

การสาธิตในพื้นที่นั้นใช้ gradio และคุณสามารถรันด้วย:

 python app.py

เรียกใช้การอนุมาน

ใน UI "เรียกใช้" คุณสามารถอัปโหลดภาพหนึ่งภาพในแผง "ป้อนรูปภาพ" และพิมพ์คำถามของคุณในแผง "พร้อมท์ข้อความป้อน" จากนั้นคลิกส่งและรอการอนุมานโมเดล
คุณยังสามารถปรับแต่งคลาสอ็อบเจ็กต์เพื่อการตรวจจับได้ในแผง "คลาสกราวด์" โปรดคั่นแต่ละชั้นเรียนด้วยเครื่องหมายจุลภาค (ตามด้วยช่องว่าง) เช่น "กระเป๋าถือ กระเป๋าเป้ กระเป๋าเดินทาง"
ทางด้านขวาเป็นเอาท์พุตชั่วคราว "ผลลัพธ์การค้นหา" แสดงข้อความค้นหาที่สร้างขึ้นสำหรับการค้นหา และ "ผลลัพธ์การค้นหา" แสดงความรู้ทางเว็บที่เกี่ยวข้องกับแต่ละออบเจ็กต์

ลองกับตัวอย่าง

เราจัดเตรียมตัวอย่างบางส่วนไว้ให้คุณเริ่มต้น ใน UI "ตัวอย่าง" คุณสามารถเลือกรายการใดรายการหนึ่งได้ในแผง "ตัวอย่าง" คลิก "เลือกตัวอย่างนี้" และคุณจะพบว่าอินพุตตัวอย่างได้รับการกรอกแล้วใน UI "เรียกใช้"

- การอนุมาน CLI

คุณยังสามารถแชทกับ Vision Search Assistant ของเราในเทอร์มินัลได้ด้วยการเรียกใช้

 python cli.py 
    --vlm-model "liuhaotian/llava-v1.6-vicuna-7b" 
    --ground-model "IDEA-Research/grounding-dino-base" 
    --search-model "internlm/internlm2_5-7b-chat" 
    --vlm-load-4bit

จากนั้นเลือกรูปภาพและพิมพ์คำถามของคุณ

ใบอนุญาต

โครงการนี้เผยแพร่ภายใต้ลิขสิทธิ์ Apache 2.0

รับทราบ

Vision Search Assistant ได้รับแรงบันดาลใจอย่างมากจากการมีส่วนร่วมที่โดดเด่นต่อไปนี้ในชุมชนโอเพ่นซอร์ส: GroundingDINO, LLaVA, MindSearch

การอ้างอิง

หากคุณพบว่าโครงการนี้มีประโยชน์ในการวิจัยของคุณ โปรดพิจารณาอ้างอิง:

 @article{zhang2024visionsearchassistantempower,
  title={Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines},
  author={Zhang, Zhixin and Zhang, Yiyuan and Ding, Xiaohan and Yue, Xiangyu},
  journal={arXiv preprint arXiv:2410.21220},
  year={2024}
}

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-12-26
ขนาด 18.77MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
viptools for eslam

2024-12-15
MySchedule.py

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด