VSA 다운로드 - VSA 소스 코드 다운로드

VSA

기타 소스코드

1.0.0

다운로드

Vision Search Assistant: 비전 언어 모델을 다중 모드 검색 엔진으로 강화

[프로젝트 페이지] [?Paper] [?허깅 페이스 스페이스] [모델 동물원] [소개] [?영상]

? 풀어 주다

[2024/10/29] 로컬 데모용 코드를 공개했습니다.
[2024/10/29] Vision Search Assistant가 arxiv에 출시되었습니다.

설정

이 리포지토리를 복제하고 VSA 폴더로 이동합니다.

 git clone https://github.com/cnzzx/VSA.git
cd VSA

콘다 환경을 만듭니다.

 conda create -n vsa python=3.10
conda activate vsa

LLaVA를 설치합니다.

 cd models/LLaVA
pip install -e .

다른 요구 사항을 설치합니다.

 pip install -r requirements.txt

로컬 데모

로컬 데모는 Gradio를 기반으로 하며 다음을 사용하여 간단히 실행할 수 있습니다.

 python app.py

추론 실행

"실행" UI의 "이미지 입력" 패널에 이미지 하나를 업로드하고 "텍스트 프롬프트 입력" 패널에 질문을 입력할 수 있습니다. 그런 다음 제출을 클릭하고 모델 추론을 기다립니다.
"지상 클래스" 패널에서 탐지할 객체 클래스를 사용자 정의할 수도 있습니다. "핸드백, 배낭, 여행 가방"과 같이 각 클래스를 쉼표(뒤에 공백)로 구분하세요.
오른쪽에는 임시 출력이 있습니다. "Query Output"은 검색을 위해 생성된 쿼리를 보여주고, "Search Output"은 각 개체와 관련된 웹 지식을 보여줍니다.

샘플을 사용해 보세요

우리는 당신이 시작할 수 있는 몇 가지 샘플을 제공합니다. "샘플" UI의 "샘플" 패널에서 하나를 선택하고 "이 샘플 선택"을 클릭하면 "실행" UI에 샘플 입력이 이미 채워져 있는 것을 확인할 수 있습니다.

? CLI 추론

터미널에서 다음을 실행하여 Vision Search Assistant와 채팅할 수도 있습니다.

 python cli.py 
    --vlm-model "liuhaotian/llava-v1.6-vicuna-7b" 
    --ground-model "IDEA-Research/grounding-dino-base" 
    --search-model "internlm/internlm2_5-7b-chat" 
    --vlm-load-4bit

그런 다음 이미지를 선택하고 질문을 입력하세요.

특허

이 프로젝트는 Apache 2.0 라이센스에 따라 릴리스됩니다.

감사의 말

Vision Search Assistant는 오픈 소스 커뮤니티에 대한 다음과 같은 뛰어난 기여에서 큰 영감을 받았습니다: GroundingDINO, LLaVA, MindSearch.

소환

이 프로젝트가 귀하의 연구에 유용하다고 생각되면 다음을 인용해 보십시오.

 @article{zhang2024visionsearchassistantempower,
  title={Vision Search Assistant: Empower Vision-Language Models as Multimodal Search Engines},
  author={Zhang, Zhixin and Zhang, Yiyuan and Ding, Xiaohan and Yue, Xiangyu},
  journal={arXiv preprint arXiv:2410.21220},
  year={2024}
}

확장하다

추가 정보