تنفيذي الشخصي للنموذج من "Qwen-VL: نموذج حدودي كبير للرؤية واللغة مع قدرات متعددة الاستخدامات"، لم يصدروا رمز النموذج بعد... لمزيد من التفاصيل، يرجى الرجوع إلى الورقة الكاملة. بنية النموذج هي في الأساس كما في الورقة: img -> vit -> طبقة دمج متعددة الوسائط مع تضمينات استعلام قابلة للتعلم، ثم تمرير -> إلى Qwen LLM من خلال طبقة الإسقاط.
pip3 install qwen
# Importing the necessary libraries
import torch
from qwen import Qwen
# Creating an instance of the Qwen model
model = Qwen ()
# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )
# Passing the image and text tensors through the model
out = model ( img , text ) # (1, 1024, 20000)
محول لغة الرؤية المدرك للموضع، يضغط ميزات الصورة. تم إنشاء وحدة تقاطع الانتباه لطبقة المغني بشكل عشوائي => مجموعة من التضمينات القابلة للتدريب كمتجهات استعلام + ميزات الصورة من المشفر المرئي كمفاتيح لعمليات تقاطع الانتباه => الإخراج: يضغط تسلسل الميزات المرئية بطول ثابت يبلغ 256، ويتم دمج الترميزات الموضعية المطلقة ثنائية الأبعاد في أزواج مفاتيح الاستعلام عن آليات الانتباه المتقاطع => تسلسل ميزات مضغوط بطول 256 => يتم تغذيته في برنامج فك التشفير
المربعات المحيطة، بالنسبة لأي مربع محيط دقيق، يتم تطبيق عملية معيارية في النطاق [0، 1000] وتحويلها إلى تنسيق سلسلة (Xtope، Ytople)(Xottomright، Ybottomright) -> يتم تمييز السلسلة كنص ولا يتم ذلك تتطلب المفردات الموضعية. سلاسل الكشف والسلاسل النصية العادية، هما رمزان خاصان ويتم إضافتهما إلى بداية ونهاية سلسلة المربع المحيط. + تم تقديم sed آخر من الرموز الخاصة ( و ).
يرجى استخدام ما يلي للاستشهاد بهذا العمل:
@article { bai2023qwen ,
title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
journal = { arXiv preprint arXiv:2308.12966 } ,
year = { 2023 } ,
url = { https://doi.org/10.48550/arXiv.2308.12966 }
}