Qwen VLダウンロード - Qwen VLソースコードのダウンロード

Qwen VL

その他のソースコード

1.0.0

ダウンロード

マルチモダリティ

クウェン-VL

「Qwen-VL: 多彩な機能を備えたフロンティア大規模ビジョン言語モデル」のモデルの私個人の実装ですが、モデルコードはまだリリースされていません... 詳細については、論文全文を参照してください。モデルアーキテクチャは基本的に論文と同じです。img -> vit -> 学習可能なクエリ埋め込みを備えたマルチモーダルフュージョンレイヤー、次にプロジェクションレイヤーを介して Qwen LLM に渡します。

インストール

pip3 install qwen

使用法

 # Importing the necessary libraries
import torch
from qwen import Qwen

# Creating an instance of the Qwen model
model = Qwen ()

# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )

# Passing the image and text tensors through the model
out = model ( img , text )  # (1, 1024, 20000)

藤堂

位置認識ビジョン言語アダプター、画像特徴を圧縮します。シンガーレイヤーのクロスアテンションモジュールがランダムに開始 => クエリベクトルとしてのトレーニング可能な埋め込みのグループ + クロスアテンション演算のキーとしてのビジュアルエンコーダーからの画像特徴 => 出力: ビジュアル特徴シーケンスを 256 の固定長に圧縮し、2D 絶対位置エンコーディングが統合されますクロスアテンションメカニズムへのクエリキーペア => 長さ 256 の圧縮された特徴シーケンス => デコーダー llm に供給
境界ボックス。指定された正確な境界ボックスに対して、ノルムプロセスが [0, 1000] の範囲で適用され、文字列形式 (Xtope, Ytople)(Xottomright, Ybottomright) に変換されます。 -> 文字列はテキストとしてトークン化され、トークン化されません。位置語彙が必要です。検出文字列と通常のテキスト文字列、2 つの特別なトークンが境界ボックス文字列の先頭と末尾に追加されます。 + 特別なトークン ( と ) の別の sed が導入されます。

引用

この作品を引用するには以下を使用してください。

 @article { bai2023qwen ,
  title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
  author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
  journal = { arXiv preprint arXiv:2308.12966 } ,
  year = { 2023 } ,
  url = { https://doi.org/10.48550/arXiv.2308.12966 }
}