Qwen VL
1.0.0
我個人對“Qwen-VL:具有多功能能力的前沿大型視覺語言模型”模型的實現,他們還沒有發布模型代碼......有關更多詳細信息,請參閱全文。模型架構基本上如論文所示:img -> vit -> 具有可學習查詢嵌入的多模態融合層,然後透過投影層傳遞 -> 進入 Qwen LLM。
pip3 install qwen
# Importing the necessary libraries
import torch
from qwen import Qwen
# Creating an instance of the Qwen model
model = Qwen ()
# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )
# Passing the image and text tensors through the model
out = model ( img , text ) # (1, 1024, 20000)
位置感知視覺語言適配器,壓縮影像特徵。 Singer 層交叉注意模組隨機初始化=> 一組可訓練嵌入作為查詢向量+ 來自視覺編碼器的圖像特徵作為交叉注意操作的關鍵=> 輸出:將視覺特徵序列壓縮到256 的固定長度,集成二維絕對位置編碼進入交叉注意機制查詢金鑰對 => 長度為 256 的壓縮特徵序列 => 饋入解碼器 llm
Bounding Boxes,對於任何給定的精確邊界框,在[0, 1000] 範圍內應用歸一過程,並轉換為字符串格式(Xtope, Ytople)(Xottomright, Ybottomright) -> 字串被標記為文本,而不是需要位置詞彙。偵測字串和常規文字字串是兩個特殊標記,被加入到邊界框字串的開頭和結尾。 + 引入了另一個特殊標記 ( 和 ) 的 sed。
請使用以下內容引用本作品:
@article { bai2023qwen ,
title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
journal = { arXiv preprint arXiv:2308.12966 } ,
year = { 2023 } ,
url = { https://doi.org/10.48550/arXiv.2308.12966 }
}