VILA arxiv / VILA Demo / VILA กอดใบหน้า
VILA เป็นโมเดลภาษาภาพ (VLM) ที่ได้รับการฝึกอบรมล่วงหน้าด้วยข้อมูลรูปภาพ-ข้อความที่สอดแทรกในขนาดต่างๆ ช่วยให้ สามารถเข้าใจวิดีโอ และมีความสามารถ ในการทำความเข้าใจหลายรูปภาพ VILA สามารถติดตั้งใช้งานได้บน Edge ด้วยการวัดปริมาณ AWQ 4 บิตและเฟรมเวิร์ก TinyChat เราพบว่า: (1) คู่ข้อความรูปภาพยังไม่เพียงพอ ข้อความรูปภาพที่ซ้อนกันเป็นสิ่งจำเป็น; (2) การยกเลิกการแช่แข็ง LLM ในระหว่างการฝึกอบรมล่วงหน้าข้อความรูปภาพแบบแทรกช่วยให้สามารถเรียนรู้ในบริบทได้ (3) การผสมผสานข้อมูลคำสั่งแบบข้อความเท่านั้นเป็นสิ่งสำคัญในการเพิ่มประสิทธิภาพทั้ง VLM และประสิทธิภาพแบบข้อความเท่านั้น (4) การบีบอัดโทเค็นจะขยาย #เฟรมวิดีโอ VILA เผยความสามารถที่น่าสนใจ ได้แก่ การใช้เหตุผลผ่านวิดีโอ การเรียนรู้ในบริบท ห่วงโซ่แห่งความคิดด้วยภาพ และความรู้ในโลกที่ดีขึ้น
[10/2024] VILA-M3 ซึ่งเป็น VLM ทางการแพทย์ SOTA ที่ปรับแต่งบน VILA1.5 เปิดตัวแล้ว! VILA-M3 มีประสิทธิภาพเหนือกว่า Llava-Med อย่างมีนัยสำคัญและเทียบเท่ากับ Med-Gemini และเป็นโอเพ่นซอร์สเต็มรูปแบบ! รหัสรุ่น
[10/2024] เราเปิดตัว VILA-U: โมเดลพื้นฐานแบบครบวงจรที่ผสานรวมวิดีโอ รูปภาพ ความเข้าใจภาษาและการสร้าง
[2024/08] เราเปิดตัว LongVILA ที่รองรับการทำความเข้าใจวิดีโอขนาดยาว (คำบรรยายภาพ, QA, Needle-in-a-Haystack) สูงสุด 1,024 เฟรม
[2024/07] VILA1.5 ยังครองอันดับที่ 1 (รุ่น OSS) ในกระดานผู้นำการทดสอบ MLVU
[2024/06] ขณะนี้ VILA1.5 เป็น VLM แบบโอเพ่นซอร์สที่ดีที่สุดบนกระดานผู้นำ MMMU และกระดานผู้นำ Video-MME!
[2024/05] เราเปิดตัว VILA-1.5 ซึ่งมี ความสามารถในการทำความเข้าใจวิดีโอ VILA-1.5 มาพร้อมกับสี่ขนาดรุ่น: 3B/8B/13B/40B
[2024/05] เราเปิดตัวรุ่น VILA-1.5 4 บิตแบบ AWQ-quantized VILA-1.5 ใช้งานได้อย่างมีประสิทธิภาพบน NVIDIA GPU ที่หลากหลาย (แล็ปท็อป A100, 4090, 4070, Orin, Orin Nano) โดยแบ็กเอนด์ TinyChat และ TensorRT-LLM
[2024/03] VILA ได้รับการยอมรับจาก CVPR 2024!
[2024/02] เราเปิดตัวโมเดล VILA 4 บิตแบบปริมาณ AWQ ซึ่งปรับใช้ได้บน Jetson Orin และแล็ปท็อปผ่าน TinyChat และ TinyChatEngine
[2024/02] VILA เปิดตัวแล้ว เราขอเสนอการฝึกอบรมล่วงหน้าข้อความรูปภาพแบบแทรกซึ่งเปิดใช้งาน VLM แบบหลายรูปภาพ VILA มาพร้อมกับความสามารถในการเรียนรู้ในบริบทที่น่าประทับใจ เราโอเพ่นซอร์สทุกอย่าง: รวมถึงโค้ดการฝึกอบรม, โค้ดการประเมินผล, ชุดข้อมูล, โมเดล ckpts
[2023/12] กระดาษอยู่บน Arxiv!
อำเภอ | VQAv2 | GQA | วิซวิซ | SQA-I | วีคิวเอ-ที | สมเด็จพระสันตะปาปา | เอ็มเอ็มอี | มม | MMB-CN | เมล็ดพันธุ์ | เมล็ดพันธุ์-I | MMMU (วาล) | MMMU (ทดสอบ) | llava-ม้านั่ง | MM-สัตวแพทย์ | เฉลี่ย | |
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
วิลา1.5-3B | fp16 | 80.4 | 61.5 | 53.5 | 69.0 | 60.4 | 85.9 | 1442.44 | 63.4 | 52.7 | 60.9 | 67.9 | 33.3 | 30.8 | 75.9 | 35.4 | 60.2 |
VILA1.5-3B-AWQ | int4 | 80.0 | 61.1 | 53.8 | 67.8 | 60.4 | 85.9 | 1437.34 | 63.3 | 51.4 | 59.8 | 66.6 | 32.7 | 31.1 | 75.0 | 37.3 | 59.9 |
วิลา1.5-3B-S2 | fp16 | 79.8 | 61.4 | 61.3 | 69.6 | 63.4 | 85.3 | 1431.65 | 62.8 | 52.2 | 60.0 | 66.4 | 32.8 | 31.3 | 76.7 | 38.6 | 60.9 |
VILA1.5-3B-S2-AWQ | int4 | 79.4 | 61.3 | 62.3 | 69.2 | 63.0 | 85.8 | 1417.06 | 61.6 | 51.5 | 59.1 | 65.7 | 33.4 | 30.4 | 77.1 | 36.7 | 60.5 |
ลามะ-3-VILA1.5-8B | fp16 | 83.0 | 63.5 | 63.2 | 82.0 | 68.5 | 85.6 | 1634.91 | 75.3 | 69.9 | 66.4 | 73.8 | 38.6 | 32.7 | 71.9 | 43.2 | 66.6 |
ลามะ-3-VILA1.5-8B-AWQ | int4 | 80.3 | 61.7 | 59.3 | 79.0 | 65.4 | 82.9 | 1593.65 | 71.0 | 64.9 | 64.0 | 71.1 | 36.0 | 36.1 | 79.0 | 37.2 | 64.5 |
วิลา1.5-13B | fp16 | 82.8 | 64.3 | 62.6 | 80.1 | 65.0 | 86.3 | 1569.55 | 74.9 | 66.3 | 65.1 | 72.6 | 37.9 | 33.6 | 80.8 | 44.3 | 66.3 |
VILA1.5-13B-AWQ | int4 | 82.7 | 64.5 | 63.3 | 79.7 | 64.7 | 86.7 | 1531.35 | 74.7 | 66.7 | 65.1 | 72.6 | 37.8 | 34.0 | 81.9 | 46.4 | 66.5 |
วิลา1.5-40B | fp16 | 84.3 | 64.6 | 62.2 | 87.2 | 73.6 | 87.3 | 1726.82 | 82.4 | 80.2 | 69.1 | 75.8 | 51.9 | 46.9 | 81.3 | 53.0 | 72.4 |
VILA1.5-40B-AWQ | int4 | 84.1 | 64.4 | 61.3 | 86.7 | 73.2 | 88.2 | 1714.79 | 83.2 | 79.6 | 68.9 | 75.6 | 49.3 | 46.2 | 83.0 | 51.4 | 72.1 |
หมายเหตุ: VQAV2 และ VizWiz เป็นการทดสอบการพัฒนา ความแม่นยำโดยเฉลี่ยคำนวณจากชุดข้อมูลทั้งหมด และตัวเลข MME หารด้วย 20
อำเภอ | การทดสอบการรับรู้ | กิจกรรมเน็ต | MSVD | MSRVTT | ทีจีไอเอฟ | อัตตาสคีมา (ทดสอบ) | CinePile | |
---|---|---|---|---|---|---|---|---|
วิลา1.5-3B | fp16 | 47 | 50.2 | 76.6 | 57.5 | 51.7 | 42.6 | 37.9 |
วิลา1.5-3B-S2 | fp16 | 49.7 | 50.7 | 76.9 | 57.6 | 51.7 | ||
ลามะ-3-VILA1.5-8B | fp16 | 54.1 | 54.3 | 78.3 | 60.1 | 54.1 | 50.4 | 48.7 |
วิลา1.5-13B | fp16 | 53.6 | 54.7 | 77.9 | 60.2 | 56 | 52.2 | 50.1 |
วิลา1.5-40B | fp16 | 54 | 58 | 80.1 | 63 | 58.2 | 58.7 | 51.3 |
ความแม่นยำ | A100 | 4090 | โอริน | |
---|---|---|---|---|
วิลา1.5-3B | fp16 | 104.6 | 137.6 | 25.4 |
VILA1.5-3B-AWQ | int4 | 182.8 | 215.5 | 42.5 |
วิลา1.5-3B-S2 | fp16 | 104.3 | 137.2 | 24.6 |
VILA1.5-3B-S2-AWQ | int4 | 180.2 | 219.3 | 40.1 |
ลามะ-3-VILA1.5-8B | fp16 | 74.9 | 57.4 | 10.2 |
ลามะ-3-VILA1.5-8B-AWQ | int4 | 168.9 | 150.2 | 28.7 |
วิลา1.5-13B | fp16 | 50.9 | อืม | 6.1 |
VILA1.5-13B-AWQ | int4 | 115.9 | 105.7 | 20.6 |
วิลา1.5-40B | fp16 | อืม | อืม | - |
VILA1.5-40B-AWQ | int4 | 57.0 | อืม | - |
หมายเหตุ: วัดโดยใช้แบ็กเอนด์ TinyChat ที่ขนาดแบตช์ = 1
เคล็ดลับ: อธิบายองค์ประกอบภาพและการเล่าเรื่องของวิดีโออย่างละเอียด
คำบรรยายภาพ: วิดีโอแสดงมือของคนที่ทำงานบนพื้นผิวสีขาว พวกเขากำลังพับผ้าลายตารางหมากรุกในโทนสีน้ำเงินและสีขาว ผ้าจะถูกพับให้มีขนาดเล็กลงและกะทัดรัดยิ่งขึ้น เล็บของบุคคลนั้นทาสีแดง และสวมเสื้อผ้าสีดำแดง นอกจากนี้ยังมีไม้บรรทัดและดินสออยู่บนพื้นผิว ซึ่งบ่งบอกว่าการวัดและความแม่นยำมีส่วนเกี่ยวข้องในกระบวนการนี้
./environment_setup.sh วิลล่า
การฝึกอบรม VILA ประกอบด้วยสามขั้นตอน สำหรับไฮเปอร์พารามิเตอร์เฉพาะ โปรดดูที่โฟลเดอร์ script/v1_5:
เราใช้ชุดข้อมูล LLaVA-CC3M-Pretrain-595K เพื่อจัดแนวรูปแบบข้อความและภาพ
สคริปต์ขั้นที่ 1 ใช้พารามิเตอร์ 2 ตัวและสามารถทำงานบนโหนด 8xA100 เดียวได้ BASE_MODEL_PATH
ชี้ไปยังพื้นที่เก็บข้อมูลออนไลน์หรือพื้นที่เก็บข้อมูล Huggingface เช่น NousResearch/Llama-2-7b-hf
OUTPUT_NAME
ชี้ไปที่ไดเร็กทอรีเป้าหมายภายใต้ checkpoints
ซึ่งจะบันทึกโปรเจ็กเตอร์ต่อเนื่องหลายรูปแบบที่ได้รับการฝึกในภายหลัง
สคริปต์ทุบตี/v1_5/paper/1_mm_align.sh [BASE_MODEL_PATH] [OUTPUT_NAME]
เราใช้ชุดข้อมูล MMC4 และ Coyo เพื่อฝึก VLM ด้วยคู่ข้อความรูปภาพที่สลับกัน
สคริปต์ทุบตี/v1_5/paper/2_pretrain_mmc4_coyo.sh [CODE_PATH] [BASE_MODEL_PATH] [STAGE1_PATH] [OUTPUT_NAME]
สคริปต์ระยะที่ 2 ใช้เวลาในการโต้แย้งสี่ครั้ง CODE_PATH
เป็นเส้นทางที่แน่นอนไปยังฐานรหัส VILA ของเรา BASE_MODEL_PATH
มีความหมายคล้ายกับสิ่งที่นำเสนอในสคริปต์ระยะที่ 1 STAGE1_PATH
ชี้ไปที่ OUTPUT_NAME
ของระยะที่ 1 (นั่นคือ ตำแหน่งที่จัดเก็บจุดตรวจสอบระยะที่ 1) OUTPUT_NAME
คือชื่อโฟลเดอร์ที่ต้องการภายใต้ checkpoints
ที่จะบันทึกจุดตรวจสอบการฝึกล่วงหน้า สคริปต์ที่เราจัดเตรียมไว้สำหรับขั้นตอนนี้ดำเนินการบน slurm และเราคาดว่าจะดำเนินการบน 16 โหนด (128 GPU)
นี่เป็นขั้นตอนสุดท้ายของการฝึกอบรม VILA ซึ่งเราปรับแต่งโมเดลให้ทำตามคำแนะนำหลายรูปแบบในชุดย่อยของ M3IT, FLAN และ ShareGPT4V ระยะนี้ทำงานบนโหนด 8xA100
สคริปต์ทุบตี/v1_5/paper/3_sft.sh [STAGE2_PATH] [OUTPUT_NAME]
สคริปต์ระยะที่ 3 ใช้เวลาในการโต้แย้งสองครั้ง STAGE2_PATH
ชี้ไปที่ OUTPUT_NAME
ของสคริปต์ระยะที่ 2 (เช่น ตำแหน่งที่จัดเก็บจุดตรวจสอบระยะที่ 2) OUTPUT_NAME
คือชื่อโฟลเดอร์ที่ต้องการภายใต้ checkpoints
ที่เก็บจุดตรวจสอบสุดท้าย
คุณสามารถติดตาม Llava1.5 eval เพื่อดาวน์โหลดชุดข้อมูลทั้งหมด หลังจากดาวน์โหลดชุดข้อมูลทั้งหมดแล้ว โปรดวางไว้ใต้ playground/data/eval
โปรดทำการเปลี่ยนแปลงสคริปต์ประเมินผล MME ต่อไปนี้ กรุณาค้นหา:
data_path = "MME_Benchmark_release_version"
และแทนที่ด้วย:
data_path = os.path.join (script_dir, "MME_Benchmark_release_version")
เรามีสคริปต์แบบกดปุ่มเพื่อทำการประเมินชุดข้อมูลทั้ง 10 ชุดที่ไม่จำเป็นต้องมีการประเมินแบบใช้ GPT:
./scripts/v1_5/eval/eval_all.sh [CHECKPOINT_PATH] [MODEL_NAME] [CONV_MODE]
สคริปต์นี้ใช้พารามิเตอร์สองตัว CHECKPOINT_PATH
ชี้ไปที่จุดตรวจสอบโมเดลระยะที่ 3 และ MODEL_NAME
จะเป็นชื่อของผลการประเมิน
การประเมิน VQAv2 และ Vizwiz โฮสต์อยู่บน eval.ai คุณต้องลงทะเบียนบัญชีและสร้างทีมเพื่อให้สามารถส่งแบบประเมินได้
การประเมิน MMBench และ MMBench_CN ถูกโฮสต์บนเซิร์ฟเวอร์การประเมินอื่น ตรวจสอบให้แน่ใจว่าคุณเปลี่ยนชื่อไฟล์ก่อนส่ง ไม่เช่นนั้นเซิร์ฟเวอร์จะแคชผลลัพธ์และจะส่งผลลัพธ์ที่ไม่ถูกต้องกลับมาให้คุณเสมอ
เรามีสคริปต์ด่วนเพื่อจัดระเบียบไฟล์การทำนายที่ต้องส่งไปยังเซิร์ฟเวอร์โดยอัตโนมัติ:
สคริปต์หลาม/v1_5/eval/copy_predictions.py [MODEL_NAME]
คุณจะสามารถค้นหาการคาดคะเนได้ภายใต้ playground/data/predictions_upload/[MODEL_NAME]
หลังจากเรียกใช้สคริปต์นี้
โปรดทำตามขั้นตอนการประเมินใน Video-LLaVA เพื่อการเตรียมชุดข้อมูล
./scripts/v1_5/eval/video_chatgpt/run_all.sh [CHECKPOINT_PATH] [MODEL_NAME] [CONV_MODE] ./scripts/v1_5/eval/video_chatgpt/eval_all.sh [MODEL_NAME]
เราจัดเตรียมตัวอย่างข้อมูลเพื่อการอนุมานอย่างรวดเร็วพร้อมข้อความแจ้งและรูปภาพจากผู้ใช้
การอนุมาน Llama-3-VILA1.5-8B:
python -W ละเว้น llava/eval/run_vila.py --model-path มีประสิทธิภาพ-ขนาดใหญ่-รุ่น/Llama-3-VILA1.5-8b-Fix --โหมด Conv llama_3 --query "<image>n โปรดอธิบายสภาพการจราจร" --ไฟล์รูปภาพ "av.png"
การอนุมาน VILA1.5-40B:
python -W ละเว้น llava/eval/run_vila.py --model-path Efficient-Large-Model/VILA1.5-40b --conv-โหมด hermes-2 --query "<image>n โปรดอธิบายสภาพการจราจร" --ไฟล์รูปภาพ "av.png"
การอนุมานวิดีโอ VILA1.5-3B:
python -W ละเว้น llava/eval/run_vila.py --model-path Efficient-Large-Model/VILA1.5-3b --โหมด Conv vicuna_v1 --query "<video>n โปรดอธิบายวิดีโอนี้" --ไฟล์วิดีโอ "demo.mp4"
โมเดล VILA ของเราได้รับการกำหนดปริมาณโดย AWQ เป็น 4 บิตเพื่อการอนุมานที่ Edge ได้อย่างมีประสิทธิภาพ เรามีสคริปต์แบบกดปุ่มเพื่อกำหนดปริมาณ VILA ด้วย AWQ
เรารองรับ VILA 4 บิตแบบปริมาณ AWQ บนแพลตฟอร์ม GPU ผ่าน TinyChat เรามีบทช่วยสอนเพื่อรันโมเดลด้วย TinyChat หลังจากการหาปริมาณ นอกจากนี้เรายังให้คำแนะนำในการเปิดใช้เซิร์ฟเวอร์ Gradio (ขับเคลื่อนโดย TinyChat และ AWQ) เพื่อให้บริการโมเดล VILA เชิงปริมาณ 4 บิต
เรายังสนับสนุนโมเดล VILA 4 บิตแบบ AWQ ของเราบนแพลตฟอร์ม CPU ต่างๆ ที่มีทั้งสถาปัตยกรรม x86 และ ARM ด้วย TinyChatEngine ของเรา นอกจากนี้เรายังมีบทช่วยสอนโดยละเอียดเพื่อช่วยให้ผู้ใช้ปรับใช้ VILA บน CPU ที่แตกต่างกัน
มีการจัดเตรียมเซิร์ฟเวอร์ API อย่างง่ายเพื่อรองรับโมเดล VILA เซิร์ฟเวอร์ถูกสร้างขึ้นบน FastAPI และ Huggingface Transformers เซิร์ฟเวอร์สามารถรันได้ด้วยคำสั่งต่อไปนี้:
python -W ละเว้น server.py --พอร์ต 8000 --model-path Efficient-Large-Model/VILA1.5-3B --โหมด Conv vicuna_v1
นักเทียบท่า build -t vila-server: ล่าสุด .docker run --gpus ทั้งหมด --ipc=host --ulimit memlock=-1 --ulimit stack=67108864 -v ./hub:/root/.cache/huggingface/hub -มัน --rm -p 8000:8000 -e VILA_MODEL_PATH=มีประสิทธิภาพ-ขนาดใหญ่-รุ่น/VILA1.5-3B -e VILA_CONV_MODE=vicuna_v1 เซิร์ฟเวอร์ vila: ล่าสุด
จากนั้นคุณสามารถเรียกตำแหน่งข้อมูลด้วย OpenAI SDK ได้ดังนี้:
จากการนำเข้า openai OpenAIclient = OpenAI(base_url="http://localhost:8000",api_key="fake-key", ) ตอบกลับ = client.chat.completions.create (ข้อความ = [ {"บทบาท": "ผู้ใช้", "เนื้อหา": [ {"type": "text", "text": "มีอะไรอยู่ในภาพนี้?"}, {"type": "image_url","image_url": {"url": "https://blog.logomyway.com/wp-content/uploads/2022/01/NVIDIA-logo.jpg",# หรือคุณสามารถ ส่งผ่านภาพที่เข้ารหัส base64# "url": "data:image/png;base64,<base64_encoded_image>",}, - - - ],max_tokens=300,model="VILA1.5-3B",# คุณสามารถส่งพารามิเตอร์เพิ่มเติมได้ดังนี้extra_body={"num_beams": 1, "use_cache": False}, )พิมพ์(response.choices[0].message.content)
หมายเหตุ: เซิร์ฟเวอร์ API นี้มีวัตถุประสงค์เพื่อการประเมินเท่านั้น และไม่ได้รับการปรับให้เหมาะสมสำหรับการใช้งานจริง ได้รับการทดสอบกับ GPU A100 และ H100 เท่านั้น
เราเปิดตัว VILA1.5-3B, VILA1.5-3B-S2, Llama-3-VILA1.5-8B, VILA1.5-13B, VILA1.5-40B และโมเดล AWQ-quantized 4 บิต VILA1.5- 3B-AWQ, VILA1.5-3B-S2-AWQ, ลามะ-3-VILA1.5-8B-AWQ, VILA1.5-13B-AWQ, VILA1.5-40B-AWQ.
รหัสนี้เผยแพร่ภายใต้ลิขสิทธิ์ Apache 2.0 ตามที่พบในไฟล์ LICENSE
ตุ้มน้ำหนักที่ฝึกไว้ล่วงหน้าได้รับการเผยแพร่ภายใต้ใบอนุญาต CC-BY-NC-SA-4.0
บริการนี้เป็นการแสดงตัวอย่างงานวิจัยที่มีจุดประสงค์เพื่อใช้ที่ไม่ใช่เชิงพาณิชย์เท่านั้น และอยู่ภายใต้ใบอนุญาตและข้อกำหนดต่อไปนี้:
ใบอนุญาตรุ่น LLaMA สำหรับข้อกำหนดการใช้งานจุดตรวจ LLAMA3-VILA โปรดดูรายละเอียดเพิ่มเติมในใบอนุญาต LLAMA3
ข้อกำหนดการใช้งานข้อมูลที่สร้างโดย OpenAI
สิทธิ์การใช้งานชุดข้อมูลสำหรับแต่ละสิทธิ์ที่ใช้ระหว่างการฝึกอบรม
*เหยาลู่: Nvidia | *หงซู หยิน: Nvidia | *Ji Lin: OpenAI (งานที่ทำที่ Nvidia และ MIT) |
เว่ยปิง: Nvidia | พาฟโล โมลชานอฟ: Nvidia | แอนดรูว์ เต๋า: Nvidia |
ห่าวเทียน ถัง: MIT | ซางหยาง: MIT | Ligeng Zhu: Nvidia, MIT |
เหว่ยเฉิน หวาง: MIT | ฝูเจา เสวี่ย: Nvidia, NUS | หยุนห่าว ฝาง: Nvidia, UCSD |
หยูคัง เฉิน: Nvidia | จัวหยาง จาง: Nvidia | เยว่ เซิน: Nvidia |
เหว่ยหมิง เฉิน: Nvidia | ฮุ่ยซี เหมา: Nvidia | ไป่เฟิง ชิ: Nvidia, UC Berkeley |
แยน เคาทซ์: Nvidia | โมฮัมหมัด ชูเอบี: Nvidia | ซงฮัน: Nvidia, MIT |
@misc{lin2023vila, title={VILA: On Pre-training for Visual Language Models}, author={Ji Lin and Hongxu Yin and Wei Ping and Yao Lu and Pavlo Molchanov and Andrew Tao and Huizi Mao and Jan Kautz and Mohammad Shoeybi and Song Han}, year={2023}, eprint={2312.07533}, archivePrefix={arXiv}, primaryClass={cs.CV} }
LLaVA: โค้ดเบสที่เราสร้างขึ้น ขอบคุณสำหรับการทำงานที่ยอดเยี่ยมของพวกเขา
InternVL: สำหรับ InternViT แบบโอเพ่นซอร์ส (ใช้ใน VILA1.5-40b) และการผสมผสานข้อมูล InternVL-SFT (ได้รับแรงบันดาลใจจาก LLaVA-1.6) ที่ใช้ในโมเดล VILA1.5 ทั้งหมด
Vicuna: โมเดลภาษาโอเพ่นซอร์สขนาดใหญ่ที่น่าทึ่ง!
Video-ChatGPT: เรายืมสคริปต์ประเมินผลวิดีโอจากพื้นที่เก็บข้อมูลนี้
MMC4, COYO-700M, M3IT, OpenORCA/FLAN, ShareGPT4V, WIT, GSM8K-ScRel, VisualGenome, VCR, ScienceQA, Shot2Story, Youcook2, Vatex, ShareGPT-Video สำหรับการจัดหาชุดข้อมูลที่ใช้ในการวิจัยนี้