Modality Integration Rate 다운로드 - Modality Integration Rate 소스 코드 다운로드

Modality Integration Rate

AI 소스 코드

1.0.0

다운로드

양식 통합 속도를 사용하여 대규모 비전 언어 모델의 교차 모달 정렬 해독

이 저장소는 다음 문서의 공식 PyTorch 구현을 제공합니다.

양식 통합 속도를 사용하여 대규모 비전 언어 모델의 교차 모달 정렬 해독
Qidong Huang ^1,2 , Xiaoyi Dong ^2,3 , Pan Zhang ² , Yuhang Zang ² , Yuhang Cao ² , Jiaqi Wang ² , Dahua Lin ² , Weiming Zhang ¹ , Nenghai Yu ¹
¹ 중국 과학 기술 대학교, ² 상하이 AI 연구소, ³ 홍콩 중문 대학교

소식

[2024.10.10] ArXiv와 HuggingFace에서 논문을 공개합니다!

[2024.10.10] 본 프로젝트 페이지가 구축되었습니다!

?‍ 토도

MIR 코드 공개
MoCa 훈련코드, 평가코드 출시
MoCa의 체크포인트를 해제하세요

️ TL;DR

1. 미르의 경우

MIR을 자체 모델의 사전 학습 지표로 사용하려는 경우 추가 환경이 필요하지 않습니다.

torch , numpy , scipy 등의 패키지가 설치되어 있는지 확인하세요.
mir.py 의 모델 전처리 및 생성을 자신의 모델 코드로 바꾸면 LLaVA의 코드가 참조로 표시됩니다.
입력 인수를 지정하고 다음 명령을 실행합니다.

 python mir.py --model_path PATH/TO/MODEL --base_llm PATH/TO/LLM --text_data_path PATH/TO/TEXT/DATA --image_data_path PATH/TO/VISION/DATA --eval_num 100 --mode fast

사전 훈련 중에 기본 LLM을 훈련하고 해당 ckpt를 model_path 에 포함하는 경우 base_llm 이 필요하지 않습니다.

모델의 초기화 스타일에 맞게 인수를 조정할 수도 있습니다.

2. 모카의 경우

자신의 모델에 MoCa를 사용하고 싶다면 아래 단계를 따르는 것이 좋습니다.

MoCa 모듈의 코드를 자신의 모델의 모델링 코드에 복사하고 MoCa가 초기화 및 전달 기능 모두에서 기본 LLM 레이어에 장착되어 있는지 확인하세요.
입력 전처리가 modality_mask 계산할 수 있는지 확인하세요. llava/model/llava_arch.py 의 Line183-184, Line269-276 및 Line373-382를 참조하세요. 또한 modality_mask 모델 정방향 패스에 성공적으로 전달될 수 있는지 확인하세요. 예를 들어 이를 Line70, Line88, Line96, Line106, Line127, Line137, Line145, Line157, Line166, Line174와 같은 각 정방향 함수의 형식 매개변수로 추가합니다. -175 llava/model/language_model/llava_llama.py .
use_moca=True 사용을 지원하는 몇 가지 세부 사항을 확인하세요. 예를 들어 (수정해야 할 위치를 찾으려면 이 저장소에서 use_moca 검색하는 것이 좋습니다): 1) 모델 구성에 추가합니다(여기). 2) 훈련 인수(여기)에 추가하세요. 3) 훈련 중에 잠금을 해제하세요(여기). 4) 올바른 체크포인트 저장(here1, here2, here3)을 확인합니다.
MoCa 사용을 활성화하려면 훈련 명령을 실행할 때 --use_moca 추가하세요.

설정

당사의 코드베이스(LLaVA에서 수정된)를 재생산에 사용하려면 아래 단계를 통해 새로운 환경을 구축하는 것이 좋습니다. 다음 단계는 Linux에만 나열되어 있습니다. macOS 또는 Windows를 사용하는 경우 LLaVA를 참조하세요.

이 저장소를 복제하고 Modality-Integration-Rate 폴더로 이동하십시오.

 git clone https://github.com/shikiw/Modality-Integration-Rate.git
cd Modality-Integration-Rate

패키지 설치

 conda create -n llava python=3.10 -y
conda activate llava
python -m pip install --upgrade pip  # enable PEP 660 support
python -m pip install -e .
python -m pip install -e transformers-4.37.2

교육 사례용 추가 패키지 설치

 pythom -m pip install -e ".[train]"
pythom -m pip install flash-attn --no-build-isolation

미르

이 코드베이스에서 MIR 구현을 재현하려면 다음 단계를 따르세요.

MIR 계산을 위해 text_data_path 및 image_data_path 지정합니다. 기본적으로 TextVQA val 이미지 및 CNN/DM 텍스트를 사용하여 mir.py 의 Line55-64와 같이 지정할 수도 있습니다.
1. TextVQA_0.5.1_val.json 및 이미지를 다운로드하고 PATH/TO/VISION/DATA 에 추출합니다.
2. CNN 스토리를 다운로드하고 PATH/TO/TEXT/DATA 로 추출합니다.
3. Line55-64를 텍스트 데이터 경로와 이미지 데이터 경로로 수정합니다.
MLP만 사전 학습하는 경우 다음 명령어를 실행하세요.

 python mir.py --model_path PATH/TO/MODEL --base_llm PATH/TO/LLM --eval_num 100 --mode fast

ViT 또는 기본 LLM의 일부를 사전 학습하는 경우 다음 명령을 실행하세요.

 python mir.py --model_path PATH/TO/MODEL --eval_num 100 --mode fast

모카

우리 코드베이스는 --use_moca 지원하여 MoCa 구현을 활성화합니다. 자세한 내용은 scripts/v1_5/pre_sft_moca.sh 확인하세요.

모델	크기	일정	평균	엠엠스타	MME	MMB	MMB-CN	SEED-IMG	텍스트VQA	MM-수의사	로마 교황	GQA
LLaVA-v1.5	7B	full_ft-1e	59.1	30.3	1510.7	64.3	58.3	66.1	58.2	31.1	85.9	62.0
+모카	7B	full_ft-1e	60.6	36.5	1481.0	66.8	60.0	67.0	58.7	32.2	86.9	62.8

사전 훈련되고 미세 조정된 체크포인트가 출시됩니다.

기차

이 코드베이스는 LLaVA 및 ShareGPT4V를 기반으로 하며, 여기에는 몇 가지 새로운 기능이 도입되었으며 이제 시작 스크립트에서 다음 입력을 지원합니다.

--tune_vision_tower 및 --tune_vit_from_layer
--tune_language_model 및 --tune_llm_utill_layer
--tune_entire_model
--data_scale
--use_moca 및 --moca_std

참고를 위한 몇몇 경우:

사용자 정의된 데이터 규모(예: 200K)로 모델을 사전 학습하려면 다음을 수행하세요.

 sh scripts/v1_5/pre_data_scale.sh

모델(ViT의 13-24 레이어 및 기본 LLM의 1-16 레이어 잠금 해제) 및 SFT(기본적으로 전체 LLM 잠금 해제)를 사전 학습하려면 다음을 수행하세요.

 sh scripts/v1_5/pre_unlock_vit-12_llm-16_sft.sh

모델(ViT의 13-24 레이어 및 전체 기본 LLM 잠금 해제) 및 SFT(기본적으로 전체 LLM 잠금 해제)를 사전 학습하려면 다음을 수행하세요.

 sh scripts/v1_5/pre_unlock_vit-12_llm-all_sft.sh

훈련에 MoCa를 적용하려면:

 sh scripts/v1_5/pre_sft_moca.sh

평가

우리는 대부분의 벤치마크에 대해 LLaVA의 원래 평가를 따릅니다. MMStar의 경우 VLMEvalKit을 사용합니다.

Evaluation.md를 참조하세요.

승인

이 저장소는 LLaVA 및 ShareGPT4V의 코드베이스를 기반으로 합니다. 그들의 인상적인 작품에 감사드립니다!

소환

이 연구가 귀하의 연구에 유용하다고 생각되면, 우리 논문을 인용해 주십시오:

 @article{huang2024deciphering,
  title={Deciphering Cross-Modal Alignment in Large Vision-Language Models with Modality Integration Rate},
  author={Huang, Qidong and Dong, Xiaoyi and Zhang, Pan and Zang, Yuhang and Cao, Yuhang and Wang, Jiaqi and Lin, Dahua and Zhang, Weiming and Yu, Nenghai},
  journal={arXiv preprint arXiv:2410.07167},
  year={2024}
}

확장하다

추가 정보