「Qwen-VL: 多彩な機能を備えたフロンティア大規模ビジョン言語モデル」のモデルの私個人の実装ですが、モデル コードはまだリリースされていません... 詳細については、論文全文を参照してください。モデル アーキテクチャは基本的に論文と同じです。img -> vit -> 学習可能なクエリ埋め込みを備えたマルチモーダル フュージョン レイヤー、次にプロジェクション レイヤーを介して Qwen LLM に渡します。
pip3 install qwen
# Importing the necessary libraries
import torch
from qwen import Qwen
# Creating an instance of the Qwen model
model = Qwen ()
# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )
# Passing the image and text tensors through the model
out = model ( img , text ) # (1, 1024, 20000)
位置認識ビジョン言語アダプター、画像特徴を圧縮します。シンガーレイヤーのクロスアテンションモジュールがランダムに開始 => クエリベクトルとしてのトレーニング可能な埋め込みのグループ + クロスアテンション演算のキーとしてのビジュアルエンコーダーからの画像特徴 => 出力: ビジュアル特徴シーケンスを 256 の固定長に圧縮し、2D 絶対位置エンコーディングが統合されますクロス アテンション メカニズムへのクエリ キー ペア => 長さ 256 の圧縮された特徴シーケンス => デコーダー llm に供給
境界ボックス。指定された正確な境界ボックスに対して、ノルム プロセスが [0, 1000] の範囲で適用され、文字列形式 (Xtope, Ytople)(Xottomright, Ybottomright) に変換されます。 -> 文字列はテキストとしてトークン化され、トークン化されません。位置語彙が必要です。検出文字列と通常のテキスト文字列、2 つの特別なトークンが境界ボックス文字列の先頭と末尾に追加されます。 + 特別なトークン ( と ) の別の sed が導入されます。
この作品を引用するには以下を使用してください。
@article { bai2023qwen ,
title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
journal = { arXiv preprint arXiv:2308.12966 } ,
year = { 2023 } ,
url = { https://doi.org/10.48550/arXiv.2308.12966 }
}