[2024/10/04] ? LLaVA-Video (이전 LLaVA-NeXT-Video)가 대대적으로 업그레이드되었습니다! 비디오 명령 튜닝을 위한 고품질 합성 데이터 세트인 LLaVA-Video-178K를 출시하게 되어 기쁘게 생각합니다. 이 데이터 세트에는 다음이 포함됩니다.
이와 함께 Video-MME, LongVideoBench 및 Dream-1K를 포함한 최신 비디오 벤치마크에서 경쟁력 있는 성능을 제공하는 LLaVA-Video 7B/72B 모델 도 출시합니다.
자세히 알아보기 :
LLaVA-Video-178K 데이터세트: 데이터세트를 다운로드합니다.
LLaVA-Video 모델: 모델 체크포인트에 액세스합니다.
논문: LLaVA-Video에 대한 자세한 정보.
LLaVA-비디오 문서: 교육, 추론 및 평가에 대한 지침.
캡션 항목 178,510개
960,792개의 개방형 Q&A 쌍
객관식 Q&A 항목 196,198개
[2024/09/13] ? ? LLaVA-OneVision-Chat . 새로운 LLaVA-OV-Chat(7B/72B)은 LLaVA-OV의 채팅 경험을 크게 향상시킵니다. ?
[2024/08/06] ? ? LLaVA-원비전(OV)! 새로운 LLaVA-OV 모델(0.5B/7B/72B)은 단일 이미지, 다중 이미지 및 비디오 벤치마크에서 새로운 최첨단 성능을 달성하며 때로는 47개의 다양한 벤치마크에서 최고의 상용 모델과 경쟁합니다. ? 더 알아보기:
[논문]: 심층적인 통찰력, 새롭게 떠오르는 시나리오, 즉 이미지에서 작업 전송을 통한 강력한 비디오 이해.
[LLaVA-OV Doc]: 모델 추론 및 평가 지침.
[스크립트]: 단일 이미지/다중 이미지/비디오 데이터에 대한 모델 학습을 시작합니다.
[2024/07/16] ? LLaVA-NeXT-Video가 업그레이드되었습니다. 새로운 32B 모델은 Video-MME를 포함한 여러 비디오 벤치마크에서 최고의 오픈 소스 성능을 달성했습니다. 자세한 내용은 이 페이지를 참조하고, 데모는 llava_next-video_demo를 참조하세요.
[2024/06/23] ? LLaVA-NeXT-Interleave가 출시되었습니다. 우리는 이미지-텍스트 인터리브 형식을 활용하여 다중 이미지, 비디오 및 3D 작업을 하나의 LLM으로 통합하고 광범위한 벤치마크에서 SoTA 성능을 달성합니다. 새로운 기능과 향상된 성능을 확인하려면 문서, 블로그, 체크포인트를 확인하세요! 우리는 0.5b, 7b, 7b-dpo 모델을 출시했습니다.
강력한 성능을 갖춘 다중 이미지, 비디오 및 3D를 위한 만능 LLM [데모]
인터리브 훈련 데이터 구성 M4-Instruct
다중 이미지 벤치마크 LLaVA-Interleave Bench 구축
[2024/05/25] ? "데이터를 넘어서 시각적 지침 조정에 영향을 미치는 또 다른 요소는 무엇입니까?"가 궁금합니다. 우리의 새 블로그에는 지침 데이터 자체를 제외하고 LMM 개선에 대한 다양한 설계 선택을 제거하기 위한 경험적 탐구가 요약되어 있습니다. 한편, [COCO] [LCS] [CC3M]에서 LLaVA-NeXT-34B를 사용하여 재현된 고품질 데이터를 오픈소스로 제공하세요.
아키텍처(LMM 및 비전 인코더)
시각적 표현(해결책 및 토큰 수)
교육 전략(고품질 데이터 및 교육 가능한 모듈)
[2024/05/10] ? LLama-3(8B) 및 Qwen-1.5(72B/110B)를 포함하여 더욱 강력한 LMM을 지원하는 LLaVA-NeXT (Stronger) 모델이 출시되었습니다. 향상된 성능을 보려면 [블로그] 및 [체크포인트]를 확인하세요!
[2024/05/10] ? LLaVA-NeXT (동영상)이 출시되었습니다. 이미지만으로 학습된 LLaVA-NeXT 모델은 제로샷 모달리티 전송을 사용하는 비디오 작업에 놀라울 정도로 강력합니다. 비디오에 대한 AI 피드백을 통한 DPO 교육은 상당한 개선을 가져올 수 있습니다. [블로그], [체크포인트] 및 [sglang]
[2024/01/30] ? LLaVA-NeXT 가 나왔습니다! LLaVA-1.5로의 추가 확장을 통해 LLaVA-NeXT-34B는 일부 벤치마크에서 Gemini Pro보다 성능이 뛰어납니다. 이제 이전보다 4배 더 많은 픽셀을 처리하고 더 많은 작업/애플리케이션을 수행할 수 있습니다. 블로그 게시물을 확인하고 데모를 살펴보세요! Model Zoo에서 모델을 사용할 수 있습니다. 훈련/평가 데이터 및 스크립트가 곧 제공될 예정입니다.
[2024/03/10] ? LLaVA-NeXT 개발 시 사용했던 매우 효율적인 평가 파이프라인인 LMMs-Eval 출시. 수십 개의 공개 데이터 세트에 대한 LMM 평가를 지원하고 새로운 데이터 세트 온보딩을 허용하여 새로운 LMM 개발을 훨씬 빠르게 만듭니다. [블로그] [코드베이스]
[2023/11/10] LLaVA-Plus 출시: LLaVA-Plus(스킬을 연결하고 학습하는 LLaVA)를 통해 다중 모달 에이전트 생성을 위한 도구 사용 방법 학습. [프로젝트 페이지] [데모] [코드] [문서]
[2023/11/02] LLaVA-Interactive 출시: 이미지 채팅, 분할, 생성 및 편집을 위한 올인원 데모를 통해 인간-AI 다중 모드 상호 작용의 미래를 경험해 보세요. [프로젝트 페이지] [데모] [코드] [문서]
[2023/10/26] ? LoRA가 포함된 LLaVA-1.5는 GPU RAM 요구 사항(ckpts, 스크립트)을 줄여 전체 모델 미세 조정과 비슷한 성능을 달성합니다. 또한 LoRA를 사용하여 자체 데이터 세트에서 LLaVA-1.5를 미세 조정하는 방법에 대한 문서도 제공합니다.
[2023/10/12] 저희 연구에 아낌없는 지원을 해주신 ETRI가 만든 한국어 LLaVA(Ko-LLaVA)를 확인해보세요! [? 데모]
[2023/10/05] ? LLaVA-1.5가 나왔습니다! 원본 LLaVA를 간단히 수정하여 11개 벤치마크에서 SoTA를 달성하면 모든 공개 데이터를 활용하고 단일 8-A100 노드에서 최대 1일 만에 교육을 완료하며 수십억 규모의 데이터를 사용하는 Qwen-VL-Chat과 같은 방법을 능가합니다. 기술 보고서를 확인하고 데모를 살펴보세요! Model Zoo에서 모델을 사용할 수 있습니다. LLaVA-1.5의 훈련 데이터와 스크립트는 여기에 공개되고, 평가 스크립트는 여기에 공개됩니다!
[2023/09/26] LLaVA는 사실 기반을 개선하고 환각을 줄이기 위해 인간 피드백(RLHF)을 통한 강화 학습을 통해 개선되었습니다. 프로젝트 [LLavA-RLHF]에서 새로운 SFT 및 RLHF 체크포인트를 확인하세요.
[2023/09/22] LLaVA는 NeurIPS 2023에서 구두 프레젠테이션 으로 승인되었으며 LLaVA-Med는 NeurIPS 2023 Datasets 및 Benchmarks Track에서 스포트라이트 프레젠테이션 으로 승인되었습니다.
[2023/11/06] Intel dGPU 및 CPU 플랫폼을 지원합니다. 자세한 내용은 여기를 참조하세요.
[2023/10/12] LLaVA는 이제 llama.cpp에서 4비트/5비트 양자화 지원을 지원합니다!
[2023/10/11] LLaVA-1.5의 훈련 데이터와 스크립트는 여기에 공개되고, 평가 스크립트는 여기에 공개됩니다!
[2023/10/10] Roboflow Deep Dive: LLaVA-1.5의 첫인상.
[2023/09/20] 33B 및 65B LLaVA 모델 훈련에 대한 경험적 연구를 노트에 요약합니다. 또한, 다중 모드 기반 모델의 포괄적인 검토, 진화 및 추세에 관심이 있는 경우 최근 조사 논문 "다중 모드 기반 모델: 전문가에서 일반 목적 보조자까지"를 확인하시기 바랍니다.
[2023/07/19] ? LLaMA-2, LoRA 교육, 4/8비트 추론, 더 높은 해상도(336x336) 등을 포함한 주요 업그레이드를 출시합니다. Bard 및 Bing-Chat의 결과를 바탕으로 개방형 시각적 채팅을 벤치마킹하기 위한 LLaVA Bench를 출시합니다. 또한 RTX 3090 및 RTX A6000을 사용한 교육을 지원하고 검증합니다. LLaMA-2의 LLaVA와 모델 동물원을 확인해 보세요!
[2023/06/26] 대형 멀티모달 모델에 대한 CVPR 2023 튜토리얼: 멀티모달 GPT-4 구축 및 능가를 향하여 ! [슬라이드] [메모] [YouTube] [Blibli]를 확인해주세요.
[2023/06/11] 가장 많이 요청된 기능인 DeepSpeed 및 LoRA 지원에 대한 미리보기를 출시했습니다! 여기에서 문서를 참조하세요.
[2023/06/01] 우리는 LLaVA-Med: 생물 의학을 위한 대규모 언어 및 비전 보조 프로그램을 출시했습니다. 이는 GPT-4 수준 기능을 갖춘 생물 의학 도메인 대규모 언어 및 비전 모델을 구축하기 위한 단계입니다. 종이와 페이지를 확인해 보세요.
[2023/05/06] MPT-7B-Chat을 기반으로 LLaVA-Lighting-MPT-7B-미리보기를 공개합니다! 자세한 내용은 여기를 참조하세요.
[2023/05/02] ? LLaVA-Lighting을 출시합니다! 단 40달러로 3시간 만에 간단한 다중 모드 GPT-4를 훈련하세요! 자세한 내용은 여기를 참조하세요.
[2023/04/27] 커뮤니티의 노력 덕분에 4비트 양자화 기능을 갖춘 LLaVA-13B를 사용하면 12GB VRAM에 불과한 GPU에서도 실행할 수 있습니다! 여기서 시도해 보세요.
[2023/04/17] ? LLaVA: Large Language and Vision Assistant를 출시했습니다. 우리는 GPT-4 수준의 기능을 갖춘 대규모 언어 및 비전 모델을 구축하기 위한 시각적 지침 조정을 제안합니다. 논문과 데모를 확인해 보세요.
사용 및 라이선스 고지 사항 : 이 프로젝트는 해당 원본 라이선스가 적용되는 특정 데이터 세트 및 체크포인트를 활용합니다. 사용자는 데이터 세트에 대한 OpenAI 사용 약관과 데이터 세트를 사용하여 훈련된 체크포인트에 대한 기본 언어 모델에 대한 특정 라이선스를 포함하되 이에 국한되지 않고 이러한 원본 라이선스의 모든 이용 약관을 준수해야 합니다(예: LLaMA-2 및 Vicuna-v1.5, Tongyi Qianwen 연구 라이선스 계약 및 Llama-3 연구 라이선스). 이 프로젝트는 원래 라이센스에 규정된 것 이상의 추가 제한 사항을 부과하지 않습니다. 또한 사용자는 데이터 세트 및 체크포인트를 모든 관련 법률 및 규정을 준수하여 사용하는지 확인해야 합니다.
자식 클론 https://github.com/LLaVA-VL/LLaVA-NeXTcd LLaVA-NeXT
conda create -n llava python=3.10 -y 콘다 활성화 라바 pip install --upgrade pip # PEP 660 지원 활성화.pip install -e ".[train]"
추론 및 평가에 대한 자세한 내용은 다음 페이지를 확인하세요.
LLaVA-OneVision: 데모 추론용. 평가 코드는 lmms-eval에 있습니다.
LLaVA-NeXT-Image: lmms-eval을 사용하여 더 강력한 LMM의 이미지 데모 추론 및 평가용입니다.
LLaVA-NeXT-Video: 비디오 추론 및 평가 스크립트용. 평가에는 LMM 비디오를 사용하는 것이 좋습니다.
LLaVA-NeXT-Interleave: 다중 이미지 데모 및 평가 스크립트용.
우리는 LLaVA-NeXT의 추론 및 배포 속도를 높이기 위해 SGLang을 사용합니다. SGLang을 사용하면 LLaVA-NeXT를 백엔드 API 서비스로 만들 수 있습니다.
환경 준비 : sglang의 지시에 따릅니다.
sglang/examples/runtime/llava_onevision에서 HTTP Post/Get 및 SRT 사용법을 확인하세요.
(K) 노드에서 시작 및 실행 :
sglang 프로젝트로 이동
cd PATH_TO/sglang
첫 번째 노드:
bash 예제/usage/llava_video/srt_example_llava_v.sh K 0 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO (예: bash 예제/usage/llava_video/srt_example_llava_v.sh K 0 예제/usage/llava_video/videos/Q98Z4OTh8RwmDonc.mp4 lmms-lab/LLaVA-NeXT-Video-7B-DPO 16)
두 번째 노드:
bash 예제/usage/llava_video/srt_example_llava_v.sh K 1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
K 노드:
bash 예제/usage/llava_video/srt_example_llava_v.sh K K-1 YOUR_VIDEO_PATH YOUR_MODEL_PATH FRAMES_PER_VIDEO
연구 및 응용에 유용하다고 생각되면 BibTeX를 사용하여 관련 논문/블로그를 인용하십시오.
@article{li2024llava, title={LLaVA-NeXT-Interleave: 대규모 다중 모드 모델에서 다중 이미지, 비디오 및 3D 다루기}, 작성자={Li, Feng 및 Zhang, Renrui 및 Zhang, Hao 및 Zhang, Yuanhan 및 Li, Bo and Li, Wei and Ma, Zejun and Li, Chunyuan}, 저널={arXiv preprint arXiv:2407.07895}, year={2024}}@misc{li2024llavanext-ablations, title={LLaVA-NeXT: 시각적 교육에 영향을 미치는 다른 것 데이터 너머의 조정?}, url={https://llava-vl.github.io/blog/2024-05-25-llava-next-ablations/}, 작성자={Li, Bo 및 Zhang, Hao 및 Zhang, Kaichen 및 Guo, Dong 및 Zhang, Yuanhan 및 Zhang, Renrui 및 Li, Feng 및 Liu, Ziwei 및 Li, Chunyuan}, 월={5월}, 연도={2024}}@misc{li2024llavanext-strong,title={LLaVA -NeXT: 더욱 강력해진 LLM으로 현장에서 멀티모달 기능 강화},url={https://llava-vl.github.io/blog/2024-05-10-llava-next-stronger-llms/},author={Li , Bo 및 Zhang, Kaichen 및 Zhang, Hao 및 Guo, Dong 및 Zhang, Renrui 및 Li, Feng 및 Zhang, Yuanhan 및 Liu, Ziwei 및 Li, Chunyuan},month={May},year={2024}}@misc {zhang2024llavanext-video, title={LLaVA-NeXT: 강력한 제로샷 비디오 이해 모델}, url={https://llava-vl.github.io/blog/2024-04-30-llava-next-video /}, 작성자={Zhang, Yuanhan 및 Li, Bo 및 Liu, haotian 및 Lee, Yong jae 및 Gui, Liangke 및 Fu, Di 및 Feng, Jiashi 및 Liu, Ziwei 및 Li, Chunyuan}, 월={April}, year={2024}}@misc{liu2024llavanext,title={LLaVA-NeXT: 향상된 추론, OCR 및 세계 지식},url={https://llava-vl.github.io/blog/2024-01-30 -llava-next/},author={Liu, Haotian 및 Li, Chunyuan 및 Li, Yuheng 및 Li, Bo 및 Zhang, Yuanhan 및 Shen, Sheng 및 Lee, Yong Jae},month={1월},연도={2024 }}@misc{liu2023improvedllava, title={시각적 지침 조정으로 기준선 개선}, 저자={Liu, Haotian 및 Li, Chunyuan 및 Li, Yuheng 및 Lee, Yong Jae}, 출판사={arXiv:2310.03744}, 연도={2023}, }@misc{liu2023llava, title={시각적 지침 튜닝}, 저자={Liu, Haotian 및 Li, Chunyuan 및 Wu, Qingyang 및 Lee, Yong Jae}, 출판사={NeurIPS}, 연도={2023}, }
Vicuna: 우리가 구축한 코드베이스와 놀라운 언어 기능을 갖춘 기본 모델 Vicuna-13B!
LLaVA-NeXT 프로젝트는 현재 기여자(이름의 알파벳순으로 나열)와 함께 팀에서 유지 관리하고 있습니다. Bo Li, Dong Guo, Feng Li, Hao Zhang, Kaichen Zhang, Renrui Zhang, Yuanhan Zhang(Chunyuan Li가 이끄는) 및 Haotian Liu의 지도와 도움으로.
lmms-eval
프레임워크와 Peiyuan Zhang, Fanyi Pu, Joshua Adrian Cahyono 및 Kairui Hu를 포함한 핵심 기여자들은 평가 측면에서 지원을 해주셨습니다.
GPT-4를 사용한 명령어 튜닝
LLaVA-Med: 하루 만에 생물의학을 위한 대규모 언어 및 시각 보조원 교육
Otter: 상황에 맞는 다중 모드 명령 조정
향후 프로젝트 아이디어를 알아보려면 다음을 확인하세요.
SEEM: 모든 곳의 모든 것을 한 번에 분할
Grounded-Segment-Anything을 사용하여 Grounding DINO와 Segment-Anything을 결합하여 무엇이든 감지, 분할 및 생성할 수 있습니다.