การใช้งาน Flamingo ซึ่งเป็นคำถามด้วยภาพไม่กี่ช็อตที่ล้ำสมัยเพื่อตอบความสนใจใน Pytorch มันจะรวมถึงตัวสุ่มตัวอย่างการรับรู้ (รวมถึงรูปแบบที่แบบสอบถามที่เรียนรู้มีส่วนสำคัญ / ค่าที่จะเข้าร่วม นอกเหนือจากการฝังสื่อ) บล็อกความสนใจแบบข้ามที่สวมหน้ากากแบบพิเศษ และสุดท้าย ประตู Tanh ที่ส่วนท้ายของความสนใจแบบไขว้ + บล็อกฟีดฟอร์เวิร์ดที่สอดคล้องกัน
การนำเสนอของยานนิค คิลเชอร์
$ pip install flamingo-pytorch
import torch
from flamingo_pytorch import PerceiverResampler
perceive = PerceiverResampler (
dim = 1024 ,
depth = 2 ,
dim_head = 64 ,
heads = 8 ,
num_latents = 64 , # the number of latents to shrink your media sequence to, perceiver style
num_time_embeds = 4 # say you have 4 images maximum in your dialogue
medias = torch . randn ( 1 , 2 , 256 , 1024 ) # (batch, time, sequence length, dimension)
perceived = perceive ( medias ) # (1, 2, 64, 1024) - (batch, time, num latents, dimension)
จากนั้นให้คุณแทรก GatedCrossAttentionBlock
ในช่วงเวลาต่างๆ ในโมเดลภาษายักษ์ของคุณ ข้อความของคุณจะสนใจสื่อที่รับรู้จากด้านบน
วิธีที่แนะนำในการรับ media_locations
boolean tensor คือการจัดสรรรหัสโทเค็นพิเศษให้กับสื่อ จากนั้นเมื่อเริ่มต้นโมเดลภาษาขนาดใหญ่ของคุณ ให้ทำ media_locations = text_id == media_token_id
import torch
from flamingo_pytorch import GatedCrossAttentionBlock
cross_attn = GatedCrossAttentionBlock (
dim = 1024 ,
dim_head = 64 ,
heads = 8
text = torch . randn ( 1 , 512 , 1024 )
perceived = torch . randn ( 1 , 2 , 64 , 1024 )
media_locations = torch . randint ( 0 , 2 , ( 1 , 512 )). bool ()
text = cross_attn (
text ,
perceived ,
media_locations = media_locations
บูรณาการกับ PaLM
ขั้นแรกให้ติดตั้ง vit-pytorch
$ pip install vit-pytorch
from vit_pytorch . vit import ViT
from vit_pytorch . extractor import Extractor
vit = ViT (
image_size = 256 ,
patch_size = 32 ,
num_classes = 1000 ,
dim = 1024 ,
depth = 6 ,
heads = 16 ,
mlp_dim = 2048 ,
dropout = 0.1 ,
emb_dropout = 0.1
vit = Extractor ( vit , return_embeddings_only = True )
# first take your trained image encoder and wrap it in an adapter that returns the image embeddings
# here we use the ViT from the vit-pytorch library
import torch
from flamingo_pytorch import FlamingoPaLM
# a PaLM language model, the 540 billion parameter model from google that shows signs of general intelligence
flamingo_palm = FlamingoPaLM (
num_tokens = 20000 , # number of tokens
dim = 1024 , # dimensions
depth = 12 , # depth
heads = 8 , # attention heads
dim_head = 64 , # dimension per attention head
img_encoder = vit , # plugin your image encoder (this can be optional if you pass in the image embeddings separately, but probably want to train end to end given the perceiver resampler)
media_token_id = 3 , # the token id representing the [media] or [image]
cross_attn_every = 3 , # how often to cross attend
perceiver_num_latents = 64 , # perceiver number of latents, should be smaller than the sequence length of the image tokens
perceiver_depth = 2 # perceiver resampler depth
# train your PaLM as usual
text = torch . randint ( 0 , 20000 , ( 2 , 512 ))
palm_logits = flamingo_palm ( text )
# after much training off the regular PaLM logits
# now you are ready to train Flamingo + PaLM
# by passing in images, it automatically freezes everything but the perceiver and cross attention blocks, as in the paper
dialogue = torch . randint ( 0 , 20000 , ( 4 , 512 ))
images = torch . randn ( 4 , 2 , 3 , 256 , 256 )
flamingo_logits = flamingo_palm ( dialogue , images )
# do your usual cross entropy loss
เพื่อความถูกต้องตามข้อเท็จจริง ลองจินตนาการว่าระบบนี้จะยืนหยัดอยู่ที่ไหนหากใครใช้โมเดลภาษาในการดึงข้อมูลที่ทันสมัยเป็นฐาน
