Implementasi pribadi saya terhadap model dari "Qwen-VL: Model Bahasa Visi Besar Perbatasan dengan Kemampuan Serbaguna", mereka belum merilis kode model sooo... Untuk lebih jelasnya, silakan merujuk ke makalah lengkap. Arsitektur model pada dasarnya seperti di makalah: img -> vit -> lapisan fusi multi-modal dengan penyematan kueri yang dapat dipelajari, dan kemudian meneruskan -> ke Qwen LLM melalui lapisan proyeksi.
pip3 install qwen
# Importing the necessary libraries
import torch
from qwen import Qwen
# Creating an instance of the Qwen model
model = Qwen ()
# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )
# Passing the image and text tensors through the model
out = model ( img , text ) # (1, 1024, 20000)
Adaptor bahasa penglihatan yang sadar posisi, memampatkan fitur gambar. Modul perhatian silang lapisan penyanyi dimulai secara acak => grup penyematan yang dapat dilatih sebagai vektor kueri + fitur gambar dari pembuat enkode visual sebagai kunci untuk operasi perhatian silang => KELUARAN: mengompresi urutan fitur visual ke jarak tetap 256, pengkodean posisi absolut 2d terintegrasi ke dalam pasangan kunci kueri mekanisme perhatian silang => urutan fitur terkompresi dengan panjang 256 => dimasukkan ke dekoder llm
Kotak Pembatas, untuk kotak pembatas akurat tertentu, proses norma diterapkan dalam rentang [0, 1000] dan diubah menjadi format string (Xtope, Ytople)(Xottomright, Ybottomright) -> string diberi token sebagai teks dan tidak memerlukan kosakata posisional. String deteksi dan string teks biasa, dua token khusus dan ditambahkan ke awal dan akhir string kotak pembatas. + sed token khusus lainnya ( dan ) diperkenalkan.
Silakan gunakan yang berikut ini untuk mengutip karya ini:
@article { bai2023qwen ,
title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
journal = { arXiv preprint arXiv:2308.12966 } ,
year = { 2023 } ,
url = { https://doi.org/10.48550/arXiv.2308.12966 }
}