Unduhan Ovis - Unduhan kode Sumber Ovis

Ovis

Kode Sumber AI

1.0.0

Unduh

Ovis: Penyelarasan Penyematan Struktural untuk Model Bahasa Besar Multimodal

Ovis (Open VISion) adalah arsitektur Multimodal Large Language Model (MLLM) baru, yang dirancang untuk menyelaraskan struktur visual dan tekstual. Untuk pengenalan yang komprehensif, silakan merujuk ke makalah Ovis.

Melepaskan

[11/26] Mengumumkan Ovis1.6-Gemma2-27B!
[11/04] Mengumumkan versi terkuantisasi dari Ovis1.6: Ovis1.6-Gemma2-9B-GPTQ-Int4 dan Ovis1.6-Llama3.2-3B-GPTQ-Int4!
[10/22] Mengumumkan Ovis1.6-Llama3.2-3B (Model, Demo)!
[09/19] Mengumumkan Ovis1.6-Gemma2-9B (Model, Demo)! Rilis terbaru ini semakin menyempurnakan pemrosesan gambar resolusi tinggi, dilatih pada kumpulan data yang lebih besar, lebih beragam, dan berkualitas lebih tinggi, serta menyempurnakan proses pelatihan dengan pelatihan DPO setelah penyesuaian instruksi.
[07/24] Memperkenalkan Ovis1.5, menampilkan pemrosesan gambar resolusi tinggi yang ditingkatkan dan data pelatihan yang dioptimalkan untuk meningkatkan kinerja.
[06/14] Peluncuran Ovis1.0, versi perdana model Ovis.

Isi

Memasang
Model
Pertunjukan
Menyempurnakan
Kesimpulan
Kuantisasi
Kutipan
Tim
Lisensi

Memasang

Ovis telah diuji dengan Python 3.10, Torch 2.4.0, Transformers 4.46.2, dan DeepSpeed 0.15.4. Untuk daftar lengkap dependensi paket, silakan lihat file requirements.txt . Sebelum melakukan finetuning atau inferensi, harap instal Ovis sebagai berikut.

git clone [email protected]:AIDC-AI/Ovis.git
conda create -n ovis python=3.10 -y
conda activate ovis
cd Ovis
pip install -r requirements.txt
pip install -e .

Model

Ovis dapat dipakai dengan LLM populer. Kami menyediakan Ovis MLLM berikut:

Ovis MLLM	ViT	LLM	Bobot Model	Demo
Ovis1.6-Gemma2-27B	Siglip-400M	Gemma2-27B-Itu	wajah berpelukan	-
Ovis1.6-Gemma2-9B	Siglip-400M	Gemma2-9B-Itu	wajah berpelukan	Ruang angkasa
Ovis1.6-Llama3.2-3B	Siglip-400M	Llama-3.2-3B-Instruksikan	wajah berpelukan	Ruang angkasa

Pertunjukan

Dengan parameter 29B , Ovis1.6-Gemma2-27B mencapai kinerja luar biasa dalam benchmark OpenCompass, termasuk di antara MLLM sumber terbuka tingkat atas.

kinerja-Ovis1_6-Gemma2-27B

Dengan hanya parameter 10 miliar , Ovis1.6-Gemma2-9B memimpin tolok ukur OpenCompass di antara MLLM sumber terbuka dalam parameter 30 miliar .

kinerja-Ovis1_6-Gemma2-9B

Ovis1.6-Llama3.2-3B memimpin tolok ukur OpenCompass di antara MLLM sumber terbuka dengan parameter 4B , bahkan melampaui Llama-3.2-11B-Vision-Instruct.

kinerja-Ovis1_6-Llama3_2-3B

Menyempurnakan

Penyempurnaan Ovis1.6-Gemma2-9B didukung di ms-swift.

Kesimpulan

Kami menyediakan pembungkus inferensi di ovis/serve/runner.py , yang dapat digunakan sebagai:

 from PIL import Image
from ovis . serve . runner import RunnerArguments , OvisRunner
image = Image . open ( 'IMAGE_PATH' )
text = 'PROMPT'
runner_args = RunnerArguments ( model_path = 'MODEL_PATH' )
runner = OvisRunner ( runner_args )
generation = runner . run ([ image , text ])

Berdasarkan Gradio, Ovis juga dapat diakses melalui antarmuka pengguna web:

python ovis/serve/server.py --model_path MODEL_PATH --port PORT

Kuantisasi

Kami mengukur Ovis1.6 menggunakan AutoGPTQ. Untuk informasi mendetail tentang menjalankan dan membuat versi terkuantisasi Anda sendiri, silakan merujuk ke masing-masing kartu model Huggingface: Ovis1.6-Gemma2-9B-GPTQ-Int4 dan Ovis1.6-Llama3.2-3B-GPTQ-Int4. Ovis1.6 yang terkuantisasi mempertahankan performa yang sebanding dengan versi non-kuantisasinya, namun memerlukan lebih sedikit memori GPU:

Kinerja tolok ukur:
Penggunaan memori GPU (max_partition=9):

Kutipan

Jika menurut Anda Ovis bermanfaat, silakan kutip makalahnya

 @article{lu2024ovis,
  title={Ovis: Structural Embedding Alignment for Multimodal Large Language Model}, 
  author={Shiyin Lu and Yang Li and Qing-Guo Chen and Zhao Xu and Weihua Luo and Kaifu Zhang and Han-Jia Ye},
  year={2024},
  journal={arXiv:2405.20797}
}

Tim

Pekerjaan ini merupakan upaya kolaboratif tim MarcoVL. Kami juga ingin memberikan tautan ke makalah MLLM berikut dari tim kami:

Parrot: Penyetelan Instruksi Visual Multibahasa
Wings: Mempelajari LLM Multimodal tanpa Lupa Hanya Teks

Lisensi

Proyek ini dilisensikan di bawah Lisensi Apache, Versi 2.0 (SPDX-License-Identifier: Apache-2.0).

Penafian

Kami menggunakan algoritme pemeriksaan kepatuhan selama proses pelatihan, untuk memastikan kepatuhan model yang dilatih sesuai kemampuan terbaik kami. Karena kompleksitas data dan keragaman skenario penggunaan model bahasa, kami tidak dapat menjamin bahwa model tersebut sepenuhnya bebas dari masalah hak cipta atau konten yang tidak patut. Jika Anda yakin ada sesuatu yang melanggar hak Anda atau menghasilkan konten yang tidak pantas, silakan hubungi kami, dan kami akan segera mengatasi masalah tersebut.

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode Sumber AI
Waktu Pembaruan 2024-12-15
ukuran 2.47MB
Berasal dari Github

Aplikasi Terkait

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua