Minha implementação pessoal do modelo de "Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities", eles ainda não lançaram o código do modelo, então... Para mais detalhes, consulte o artigo completo. A arquitetura do modelo é basicamente como no artigo: img -> vit -> camada de fusão multimodal com incorporações de consulta que podem ser aprendidas e, em seguida, passe -> para Qwen LLM por meio da camada de projeção.
pip3 install qwen
# Importing the necessary libraries
import torch
from qwen import Qwen
# Creating an instance of the Qwen model
model = Qwen ()
# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )
# Passing the image and text tensors through the model
out = model ( img , text ) # (1, 1024, 20000)
Posicione o adaptador de linguagem de visão consciente, comprima recursos de imagem. Módulo de atenção cruzada da camada Singer iniciado aleatoriamente => grupo de embeddings treináveis como vetores de consulta + recursos de imagem do codificador visual como chaves para operações de atenção cruzada => SAÍDA: compacta a sequência de recursos visuais para um comprimento fixo de 256, codificações posicionais absolutas 2d são integradas nos mecanismos de atenção cruzada consulta pares de chaves => sequência de recursos compactada de comprimento de 256 => alimentada no decodificador llm
Caixas delimitadoras, para qualquer caixa delimitadora precisa, um processo de norma é aplicado no intervalo [0, 1000] e transformado em um formato de string (Xtope, Ytople) (Xottomright, Ybottomright) -> a string é tokenizada como texto e não requerem vocabulário posicional. Strings de detecção e strings de texto regulares, dois tokens especiais e são adicionados ao início e ao final da string da caixa delimitadora. + outro conjunto de tokens especiais (e) é introduzido.
Use o seguinte para citar este trabalho:
@article { bai2023qwen ,
title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
journal = { arXiv preprint arXiv:2308.12966 } ,
year = { 2023 } ,
url = { https://doi.org/10.48550/arXiv.2308.12966 }
}