การใช้งานโมเดลเป็นการส่วนตัวของฉันจาก "Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities" พวกเขายังไม่ได้เผยแพร่โค้ดโมเดลเลย... สำหรับรายละเอียดเพิ่มเติม โปรดดูที่รายงานฉบับเต็ม สถาปัตยกรรมแบบจำลองนั้นโดยพื้นฐานแล้วเหมือนกับในกระดาษ: img -> vit -> multi-modal fusion layer พร้อมการฝังคิวรีที่เรียนรู้ได้ จากนั้นส่ง -> เข้าสู่ Qwen LLM ผ่านเลเยอร์การฉายภาพ
pip3 install qwen
# Importing the necessary libraries
import torch
from qwen import Qwen
# Creating an instance of the Qwen model
model = Qwen ()
# Generating random text and image tensors
text = torch . randint ( 0 , 20000 , ( 1 , 1024 ))
img = torch . randn ( 1 , 3 , 256 , 256 )
# Passing the image and text tensors through the model
out = model ( img , text ) # (1, 1024, 20000)
อะแดปเตอร์ภาษาการมองเห็นตำแหน่งที่รับรู้ บีบอัดคุณสมบัติรูปภาพ โมดูลความสนใจข้ามเลเยอร์ของนักร้องเริ่มต้นแบบสุ่ม => กลุ่มของการฝังที่ฝึกได้เป็นเวกเตอร์คิวรี + คุณสมบัติรูปภาพจากตัวเข้ารหัสภาพเป็นปุ่มสำหรับการดำเนินการสนใจข้าม => เอาต์พุต: บีบอัดลำดับคุณสมบัติภาพให้เป็นค่าคงที่ที่ 256, การเข้ารหัสตำแหน่งแบบสัมบูรณ์ 2d ถูกรวมเข้าด้วยกัน เข้าสู่คู่คีย์แบบสอบถามกลไกความสนใจแบบข้าม => ลำดับคุณสมบัติที่ถูกบีบอัดที่มีความยาว 256 => ป้อนเข้าสู่ตัวถอดรหัส llm
Bounding Boxes สำหรับกล่องขอบเขตที่แม่นยำใด ๆ กระบวนการบรรทัดฐานจะถูกใช้ในช่วง [0, 1,000] และแปลงเป็นรูปแบบสตริง (Xtope, Ytople) (Xottomright, Ybottomright) -> สตริงถูกโทเค็นเป็นข้อความและไม่ ต้องใช้คำศัพท์ประจำตำแหน่ง สตริงการตรวจจับและสตริงข้อความปกติ โทเค็นพิเศษสองรายการ และถูกเพิ่มไว้ที่จุดเริ่มต้นและจุดสิ้นสุดของสตริงกล่องขอบเขต + มีการแนะนำโทเค็นพิเศษ ( และ ) อีกชุดหนึ่ง
โปรดใช้สิ่งต่อไปนี้เพื่ออ้างอิงงานนี้:
@article { bai2023qwen ,
title = { Qwen-VL: A Frontier Large Vision-Language Model with Versatile Abilities } ,
author = { Bai, Jinze and Bai, Shuai and Yang, Shusheng and Wang, Shijie and Tan, Sinan and Wang, Peng and Lin, Junyang and Zhou, Chang and Zhou, Jingren } ,
journal = { arXiv preprint arXiv:2308.12966 } ,
year = { 2023 } ,
url = { https://doi.org/10.48550/arXiv.2308.12966 }
}