Meine persönliche Implementierung des Modells aus „Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities“, sie haben noch keinen Modellcode veröffentlicht, also … Weitere Einzelheiten finden Sie im vollständigen Dokument. Die Modellarchitektur ist im Wesentlichen wie im Artikel: img -> vit -> multimodale Fusionsschicht mit lernbaren Abfrageeinbettungen und dann Übergabe -> an Qwen LLM über die Projektionsschicht.
pip3 install qwen
# Importing the necessary libraries
import torch
from qwen import Qwen
# Creating an instance of the Qwen model
model = Qwen ()
# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )
# Passing the image and text tensors through the model
out = model ( img , text ) # (1, 1024, 20000)
Positionsbewusster Vision-Sprachadapter, komprimiert Bildmerkmale. Singer-Layer-Cross-Attention-Modul wird zufällig initiiert => Gruppe trainierbarer Einbettungen als Abfragevektoren + Bildmerkmale vom visuellen Encoder als Schlüssel für Cross-Attention-Operationen => AUSGABE: Komprimiert die visuelle Feature-Sequenz auf eine feste Länge von 256, 2D-Absolutpositionscodierungen werden integriert In die Cross-Attentions-Mechanismen werden Schlüsselpaare abgefragt => komprimierte Merkmalsequenz mit einer Länge von 256 => in den Decoder llm eingespeist
Begrenzungsrahmen: Für jeden bestimmten genauen Begrenzungsrahmen wird ein Normprozess im Bereich [0, 1000] angewendet und in ein Zeichenfolgenformat (Xtope, Ytople) (Xottomright, Ybottomright) umgewandelt -> die Zeichenfolge wird als Text tokenisiert und nicht erfordern Positionsvokabular. Erkennungszeichenfolgen und reguläre Textzeichenfolgen, zwei spezielle Token, werden am Anfang und Ende der Begrenzungsrahmenzeichenfolge hinzugefügt. + eine weitere Reihe spezieller Token ( und ) wird eingeführt.
Bitte verwenden Sie Folgendes, um diese Arbeit zu zitieren:
@article { bai2023qwen ,
title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
journal = { arXiv preprint arXiv:2308.12966 } ,
year = { 2023 } ,
url = { https://doi.org/10.48550/arXiv.2308.12966 }
}