"Qwen-VL: 다목적 능력을 갖춘 Frontier Large Vision-Language Model"의 모델을 개인적으로 구현했는데 아직 모델 코드가 공개되지 않았습니다. 자세한 내용은 전체 문서를 참조하세요. 모델 아키텍처는 기본적으로 논문에 나와 있는 것과 같습니다. img -> vit -> 학습 가능한 쿼리 임베딩이 포함된 다중 모드 융합 레이어를 사용한 다음 -> 프로젝션 레이어를 통해 Qwen LLM으로 전달합니다.
pip3 install qwen
# Importing the necessary libraries
import torch
from qwen import Qwen
# Creating an instance of the Qwen model
model = Qwen ()
# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )
# Passing the image and text tensors through the model
out = model ( img , text ) # (1, 1024, 20000)
위치 인식 비전 언어 어댑터는 이미지 기능을 압축합니다. 무작위로 시작된 싱어 레이어 교차 주의 모듈 => 쿼리 벡터로 훈련 가능한 임베딩 그룹 + 교차 주의 작업을 위한 키로 시각적 인코더의 이미지 특징 => 출력: 시각적 특징 시퀀스를 고정 길이 256으로 압축하고 2D 절대 위치 인코딩이 통합됨 교차 주의 메커니즘에 키 쌍 쿼리 => 길이 256의 압축된 기능 시퀀스 => 디코더 llm에 공급
경계 상자는 주어진 정확한 경계 상자에 대해 [0, 1000] 범위에서 표준 프로세스가 적용되고 문자열 형식(Xtope, Ytople)(Xottomright, Ybottomright)으로 변환됩니다. -> 문자열은 텍스트로 토큰화되지만 그렇지 않습니다. 위치 어휘가 필요합니다. 감지 문자열과 일반 텍스트 문자열, 두 개의 특수 토큰이 경계 상자 문자열의 시작과 끝에 추가됩니다. + 또 다른 특수 토큰( 및 ) sed가 도입되었습니다.
이 저작물을 인용하려면 다음을 사용하세요.
@article { bai2023qwen ,
title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
journal = { arXiv preprint arXiv:2308.12966 } ,
year = { 2023 } ,
url = { https://doi.org/10.48550/arXiv.2308.12966 }
}