Mon implémentation personnelle du modèle de "Qwen-VL : A Frontier Large Vision-Language Model with Versatile Abilities", ils n'ont pas encore publié le code du modèle... Pour plus de détails, veuillez vous référer au document complet. L'architecture du modèle est fondamentalement comme dans l'article : img -> vit -> couche de fusion multimodale avec des intégrations de requêtes apprenables, puis passez -> dans Qwen LLM via la couche de projection.
pip3 install qwen
# Importing the necessary libraries
import torch
from qwen import Qwen
# Creating an instance of the Qwen model
model = Qwen ()
# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )
# Passing the image and text tensors through the model
out = model ( img , text ) # (1, 1024, 20000)
Adaptateur de langage de vision conscient de la position, compresse les caractéristiques de l'image. Module d'attention croisée de la couche Singer lancé de manière aléatoire => groupe d'intégrations pouvant être entraînées en tant que vecteurs de requête + caractéristiques d'image de l'encodeur visuel comme clés pour les opérations d'attention croisée => SORTIE : compresse la séquence de caractéristiques visuelles à une longueur fixe de 256, les encodages de position absolus 2D sont intégrés dans les mécanismes d'attention croisée, paires de clés de requête => séquence de fonctionnalités compressée d'une longueur de 256 => introduite dans le décodeur llm
Boîtes englobantes, pour toute boîte englobante précise donnée, un processus de norme est appliqué dans la plage [0, 1000] et transformé en un format de chaîne (Xtope, Ytople)(Xottomright, Ybottomright) -> la chaîne est tokenisée sous forme de texte et ne le fait pas. nécessitent un vocabulaire positionnel. Les chaînes de détection et les chaînes de texte normales, deux jetons spéciaux, sont ajoutées au début et à la fin de la chaîne du cadre de délimitation. + un autre sed de jetons spéciaux ( et ) est introduit.
Veuillez utiliser ce qui suit pour citer ce travail :
@article { bai2023qwen ,
title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
journal = { arXiv preprint arXiv:2308.12966 } ,
year = { 2023 } ,
url = { https://doi.org/10.48550/arXiv.2308.12966 }
}