Моя личная реализация модели из «Qwen-VL: передовая модель большого языка видения с универсальными возможностями», они еще не выпустили код модели... Для получения более подробной информации обратитесь к полной версии статьи. Архитектура модели в основном такая же, как в статье: img -> vit -> многомодальный слой слияния с обучаемыми внедрениями запросов, а затем передача -> в Qwen LLM через слой проекции.
pip3 install qwen
# Importing the necessary libraries
import torch
from qwen import Qwen
# Creating an instance of the Qwen model
model = Qwen ()
# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )
# Passing the image and text tensors through the model
out = model ( img , text ) # (1, 1024, 20000)
Адаптер языка видения с учетом положения, сжимает элементы изображения. Модуль перекрестного внимания уровня певца запускается случайным образом => группа обучаемых вложений в виде векторов запроса + функции изображения из визуального кодировщика в качестве ключей для операций перекрестного внимания => ВЫХОД: сжимает последовательность визуальных признаков до фиксированной длины 256, интегрированы 2D абсолютные позиционные кодировки в механизмы перекрестного внимания запрашивают пары ключей => сжатая последовательность признаков длиной 256 => подается в декодер llm
Ограничительные рамки: для любой заданной точной ограничивающей рамки применяется норма в диапазоне [0, 1000] и преобразуется в строковый формат (Xtope, Ytople)(Xottomright, Ybottomright) -> строка маркируется как текст и не требуют позиционной лексики. Строки обнаружения и обычные текстовые строки, два специальных токена добавляются в начало и конец строки ограничивающего прямоугольника. + введен еще один набор специальных токенов ( и ).
Для цитирования этой работы используйте следующее:
@article { bai2023qwen ,
title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
journal = { arXiv preprint arXiv:2308.12966 } ,
year = { 2023 } ,
url = { https://doi.org/10.48550/arXiv.2308.12966 }
}