Mi implementación personal del modelo de "Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities" aún no ha publicado el código del modelo... Para obtener más detalles, consulte el documento completo. La arquitectura del modelo es básicamente como en el artículo: img -> vit -> capa de fusión multimodal con incrustaciones de consultas que se pueden aprender, y luego pasa -> a Qwen LLM a través de la capa de proyección.
pip3 install qwen
# Importing the necessary libraries
import torch
from qwen import Qwen
# Creating an instance of the Qwen model
model = Qwen ()
# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )
# Passing the image and text tensors through the model
out = model ( img , text ) # (1, 1024, 20000)
Adaptador de lenguaje de visión consciente de la posición, comprime las características de la imagen. Módulo de atención cruzada de la capa Singer iniciado aleatoriamente => grupo de incrustaciones entrenables como vectores de consulta + características de imagen del codificador visual como claves para operaciones de atención cruzada => SALIDA: comprime la secuencia de características visuales a una longitud fija de 256, se integran codificaciones posicionales absolutas 2D en los mecanismos de atención cruzada, consulta de pares de claves => secuencia de características comprimida de longitud 256 => alimentada al decodificador llm
Cuadros delimitadores, para cualquier cuadro delimitador preciso, se aplica un proceso de norma en el rango [0, 1000] y se transforma en un formato de cadena (Xtope, Ytople)(Xottomright, Ybottomright) -> la cadena se tokeniza como texto y no Requiere vocabulario posicional. Las cadenas de detección y las cadenas de texto normales, dos tokens especiales, se agregan al principio y al final de la cadena del cuadro delimitador. + Se introduce otro conjunto de tokens especiales (y).
Utilice lo siguiente para citar este trabajo:
@article { bai2023qwen ,
title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
journal = { arXiv preprint arXiv:2308.12966 } ,
year = { 2023 } ,
url = { https://doi.org/10.48550/arXiv.2308.12966 }
}