ดาวน์โหลด Ovis - ดาวน์โหลดซอร์สโค้ด Ovis

Ovis

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

Ovis: การจัดตำแหน่งการฝังโครงสร้างสำหรับโมเดลภาษาขนาดใหญ่หลายรูปแบบ

Ovis (Open VISion) เป็นสถาปัตยกรรม Multimodal Large Language Model (MLLM) ที่ได้รับการออกแบบมาเพื่อจัดแนวโครงสร้างการฝังภาพและข้อความ สำหรับข้อมูลเบื้องต้นที่ครอบคลุม โปรดดูเอกสารของ Ovis

ปล่อย

[11/26] ประกาศ Ovis1.6-Gemma2-27B!
[11/04] ประกาศเปิดตัว Ovis1.6 เวอร์ชันเชิงปริมาณ: Ovis1.6-Gemma2-9B-GPTQ-Int4 และ Ovis1.6-Llama3.2-3B-GPTQ-Int4!
[10/22] ประกาศ Ovis1.6-Llama3.2-3B (โมเดล, เดโม่)!
[09/19] ประกาศ Ovis1.6-Gemma2-9B (รุ่น,เดโม่)! รุ่นล่าสุดนี้ปรับปรุงการประมวลผลภาพความละเอียดสูงเพิ่มเติม ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลที่ใหญ่ขึ้น หลากหลายมากขึ้น และมีคุณภาพสูงขึ้น และปรับปรุงกระบวนการฝึกอบรมด้วยการฝึกอบรม DPO ตามคำแนะนำที่ปรับแต่ง
[07/24] ขอแนะนำ Ovis1.5 ซึ่งมีการประมวลผลภาพความละเอียดสูงที่ได้รับการปรับปรุง และข้อมูลการฝึกอบรมที่ได้รับการปรับปรุงเพื่อประสิทธิภาพที่ดียิ่งขึ้น
[06/14] เปิดตัว Ovis1.0 รุ่นแรกของ Ovis

สารบัญ

ติดตั้ง
แบบอย่าง
ผลงาน
ไฟน์จูน
การอนุมาน
การหาปริมาณ
การอ้างอิง
ทีม
ใบอนุญาต

ติดตั้ง

Ovis ได้รับการทดสอบกับ Python 3.10, Torch 2.4.0, Transformers 4.46.2 และ DeepSpeed 0.15.4 หากต้องการดูรายการการขึ้นต่อกันของแพ็กเกจที่ครอบคลุม โปรดดูไฟล์ requirements.txt ก่อนที่จะปรับแต่งหรืออนุมาน โปรดติดตั้ง Ovis ดังต่อไปนี้

git clone [email protected]:AIDC-AI/Ovis.git
conda create -n ovis python=3.10 -y
conda activate ovis
cd Ovis
pip install -r requirements.txt
pip install -e .

แบบอย่าง

Ovis สามารถสร้างอินสแตนซ์ด้วย LLM ยอดนิยมได้ เราให้บริการ Ovis MLLM ดังต่อไปนี้:

Ovis MLLM	ไวที	นิติศาสตร์มหาบัณฑิต	น้ำหนักโมเดล	สาธิต
โอวิส1.6-เจมม่า2-27B	ซิกลิป-400M	เจมม่า2-27B-อิท	กอดหน้า	-
โอวิส1.6-เจมม่า2-9B	ซิกลิป-400M	เจมม่า2-9B-อิท	กอดหน้า	ช่องว่าง
โอวิส1.6-ลามะ3.2-3B	ซิกลิป-400M	Llama-3.2-3B-คำสั่ง	กอดหน้า	ช่องว่าง

ผลงาน

ด้วยพารามิเตอร์ 29B Ovis1.6-Gamma2-27B บรรลุประสิทธิภาพที่โดดเด่นในการวัดประสิทธิภาพ OpenCompass ซึ่งติดอันดับหนึ่งใน MLLM แบบโอเพ่นซอร์สระดับสูงสุด

ประสิทธิภาพ-Ovis1_6-Gamma2-27B

ด้วยพารามิเตอร์เพียง 10B Ovis1.6-Gemma2-9B เป็นผู้นำเกณฑ์มาตรฐาน OpenCompass ในกลุ่ม MLLM แบบโอเพ่นซอร์สภายในพารามิเตอร์ 30B

ประสิทธิภาพ-Ovis1_6-Gamma2-9B

Ovis1.6-Llama3.2-3B เป็นผู้นำเกณฑ์มาตรฐาน OpenCompass ในกลุ่ม MLLM แบบโอเพ่นซอร์สภายใต้พารามิเตอร์ 4B แม้จะเหนือกว่า Llama-3.2-11B-Vision-Instruct ก็ตาม

ประสิทธิภาพ-Ovis1_6-Llama3_2-3B

ไฟน์จูน

Finetuning Ovis1.6-Gemma2-9B รองรับใน ms-swift

การอนุมาน

เรามี wrapper การอนุมานใน ovis/serve/runner.py ซึ่งสามารถใช้เป็น:

 from PIL import Image
from ovis . serve . runner import RunnerArguments , OvisRunner
image = Image . open ( 'IMAGE_PATH' )
text = 'PROMPT'
runner_args = RunnerArguments ( model_path = 'MODEL_PATH' )
runner = OvisRunner ( runner_args )
generation = runner . run ([ image , text ])

จาก Gradio นั้น ยังสามารถเข้าถึง Ovis ผ่านทางอินเทอร์เฟซผู้ใช้บนเว็บ:

python ovis/serve/server.py --model_path MODEL_PATH --port PORT

การหาปริมาณ

เราหาปริมาณ Ovis1.6 โดยใช้ AutoGPTQ สำหรับข้อมูลโดยละเอียดเกี่ยวกับการรันและการสร้างเวอร์ชันเชิงปริมาณของคุณเอง โปรดดูการ์ดโมเดล Huggingface ที่เกี่ยวข้อง: Ovis1.6-Gemma2-9B-GPTQ-Int4 และ Ovis1.6-Llama3.2-3B-GPTQ-Int4 Quantized Ovis1.6 รักษาประสิทธิภาพเทียบเท่ากับ non-quantized ขณะเดียวกันก็ใช้หน่วยความจำ GPU น้อยลง:

ประสิทธิภาพมาตรฐาน:
การใช้หน่วยความจำ GPU (max_partition=9):

การอ้างอิง

หากคุณพบว่า Ovis มีประโยชน์ โปรดอ้างอิงบทความนี้

 @article{lu2024ovis,
  title={Ovis: Structural Embedding Alignment for Multimodal Large Language Model}, 
  author={Shiyin Lu and Yang Li and Qing-Guo Chen and Zhao Xu and Weihua Luo and Kaifu Zhang and Han-Jia Ye},
  year={2024},
  journal={arXiv:2405.20797}
}

ทีม

งานนี้เป็นความพยายามร่วมกันโดยทีมงาน MarcoVL นอกจากนี้เรายังต้องการให้ลิงก์ไปยังเอกสาร MLLM ต่อไปนี้จากทีมของเรา:

Parrot: การปรับแต่งคำสั่งด้วยภาพหลายภาษา
Wings: การเรียนรู้ LLM แบบหลายรูปแบบโดยไม่ต้องลืมเฉพาะข้อความ

ใบอนุญาต

โครงการนี้ได้รับอนุญาตภายใต้ Apache License เวอร์ชัน 2.0 (SPDX-License-Identifier: Apache-2.0)

ข้อสงวนสิทธิ์

เราใช้อัลกอริธึมการตรวจสอบการปฏิบัติตามข้อกำหนดในระหว่างกระบวนการฝึกอบรม เพื่อให้มั่นใจว่าโมเดลที่ได้รับการฝึกอบรมมีความสอดคล้องอย่างเต็มความสามารถ เนื่องจากความซับซ้อนของข้อมูลและสถานการณ์การใช้โมเดลภาษาที่หลากหลาย เราไม่สามารถรับประกันได้ว่าโมเดลจะปราศจากปัญหาลิขสิทธิ์หรือเนื้อหาที่ไม่เหมาะสมโดยสมบูรณ์ หากคุณเชื่อว่ามีสิ่งใดละเมิดสิทธิ์ของคุณหรือสร้างเนื้อหาที่ไม่เหมาะสม โปรดติดต่อเรา และเราจะแก้ไขปัญหาดังกล่าวโดยทันที

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน 1.0.0
ประเภท โค้ดแหล่งที่มา AI
เวลาอัปเดต 2024-12-15
ขนาด 2.47MB
มาจาก Github

แอปที่เกี่ยวข้อง

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
node telegram bot api

โค้ดแหล่งที่มา AI

v0.50.0
typebot.io

โค้ดแหล่งที่มา AI

v3.1.2
python wechaty getting started

โค้ดแหล่งที่มา AI

1.0.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
termwind

หมวดหมู่อื่นๆ

v2.3.0
wp functions

หมวดหมู่อื่นๆ

1.0.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด