ดาวน์โหลดต่อ multimodal - ดาวน์โหลดรหัสที่มา multimodal

multimodal

ซอร์สโค้ดอื่น ๆ

ดาวน์โหลด

TorchMultimodal (รุ่นเบต้า)

การแนะนำ

TorchMultimodal เป็นไลบรารี PyTorch สำหรับฝึกอบรมโมเดลมัลติทาสก์มัลติโมดัลที่ล้ำสมัยในวงกว้าง รวมถึงทั้งการทำความเข้าใจเนื้อหาและโมเดลเชิงกำเนิด TorchMultimodal ประกอบด้วย:

พื้นที่เก็บข้อมูลของบล็อคส่วนประกอบแบบแยกส่วนและแบบประกอบได้ (เลเยอร์ฟิวชั่น ฟังก์ชันการสูญเสีย ชุดข้อมูล และยูทิลิตี้)
คอลเลกชันของคลาสโมเดลหลายรูปแบบทั่วไปที่สร้างขึ้นจากแบบเอกสารสำเร็จรูปดังกล่าวพร้อมตุ้มน้ำหนักที่ฝึกไว้ล่วงหน้าสำหรับการกำหนดค่าตามรูปแบบมาตรฐาน
ชุดตัวอย่างที่แสดงวิธีรวม Building Block เหล่านี้เข้ากับส่วนประกอบและโครงสร้างพื้นฐานทั่วไปจากทั่วทั้งระบบนิเวศ PyTorch เพื่อจำลองแบบจำลองล้ำสมัยที่เผยแพร่ในวรรณกรรม ตัวอย่างเหล่านี้ควรใช้เป็นพื้นฐานสำหรับการวิจัยที่กำลังดำเนินอยู่ในสาขานี้ ตลอดจนเป็นจุดเริ่มต้นสำหรับการทำงานในอนาคต

โมเดล

TorchMultimodal มีหลายรุ่น ได้แก่

ALBEF: คลาสโมเดล, กระดาษ
BLIP-2: คลาสโมเดล กระดาษ
คลิป: คลาสโมเดล, กระดาษ
CoCa: คลาสโมเดล, กระดาษ
DALL-E 2: โมเดล กระดาษ
FLAVA: คลาสโมเดล, กระดาษ
MAE/Audio MAE: คลาสโมเดล, กระดาษ MAE, กระดาษ Audio MAE
MDETR: คลาสโมเดล กระดาษ

สคริปต์ตัวอย่าง

นอกเหนือจากโมเดลข้างต้นแล้ว เรายังจัดเตรียมสคริปต์ตัวอย่างสำหรับการฝึกอบรม การปรับแต่ง และการประเมินโมเดลในงานต่อเนื่องหลายรูปแบบยอดนิยม ตัวอย่างสามารถพบได้ภายใต้ example/ และรวม

แบบอย่าง	งานที่ได้รับการสนับสนุน
อัลเบฟ	การเรียกคืน การตอบคำถามด้วยภาพ
ปปส	การฝึกอบรมและการอนุมาน (สมุดบันทึก)
ฟลาวา	การฝึกล่วงหน้า การปรับแต่งแบบละเอียด ซีโร่ช็อต
นพ	การต่อสายดินของวลี การตอบคำถามด้วยภาพ
มูเก้น	การเรียกค้นข้อความเป็นวิดีโอ การสร้างข้อความเป็นวิดีโอ
สัตว์กินพืชทุกชนิด	การฝึกอบรมล่วงหน้า การประเมิน

เริ่มต้นใช้งาน

ด้านล่างนี้เราจะให้ตัวอย่างเล็กๆ น้อยๆ เกี่ยวกับวิธีการเขียนสคริปต์การฝึกอบรมแบบง่ายๆ หรือสคริปต์การประเมินผลแบบ Zero-shot โดยใช้ส่วนประกอบจาก TorchMultimodal

ตัวอย่างซีโร่ช็อตของ FLAVA

 import torch
from PIL import Image
from torchmultimodal . models . flava . model import flava_model
from torchmultimodal . transforms . bert_text_transform import BertTextTransform
from torchmultimodal . transforms . flava_transform import FLAVAImageTransform

# Define helper function for zero-shot prediction
def predict ( zero_shot_model , image , labels ):
  zero_shot_model . eval ()
  with torch . no_grad ():
      image = image_transform ( img )[ "image" ]. unsqueeze ( 0 )
      texts = text_transform ( labels )
      _ , image_features = zero_shot_model . encode_image ( image , projection = True )
      _ , text_features = zero_shot_model . encode_text ( texts , projection = True )
      scores = image_features @ text_features . t ()
      probs = torch . nn . Softmax ( dim = - 1 )( scores )
      label = labels [ torch . argmax ( probs )]
      print (
          "Label probabilities: " ,
          { labels [ i ]: probs [:, i ] for i in range ( len ( labels ))},
      )
      print ( f"Predicted label: { label } " )


image_transform = FLAVAImageTransform ( is_train = False )
text_transform = BertTextTransform ()
zero_shot_model = flava_model ( pretrained = True )
img = Image . open ( "my_image.jpg" )  # point to your own image
predict ( zero_shot_model , img , [ "dog" , "cat" , "house" ])

# Example output:
# Label probabilities:  {'dog': tensor([0.80590]), 'cat': tensor([0.0971]), 'house': tensor([0.0970])}
# Predicted label: dog

ตัวอย่างการฝึกอบรมแม่

 import torch
from torch . utils . data import DataLoader
from torchmultimodal . models . masked_auto_encoder . model import vit_l_16_image_mae
from torchmultimodal . models . masked_auto_encoder . utils import (
  CosineWithWarmupAndLRScaling ,
)
from torchmultimodal . modules . losses . reconstruction_loss import ReconstructionLoss
from torchmultimodal . transforms . mae_transform import ImagePretrainTransform

mae_transform = ImagePretrainTransform ()
dataset = MyDatasetClass ( transforms = mae_transform )  # you should define this
dataloader = DataLoader ( dataset , batch_size = 8 )

# Instantiate model and loss
mae_model = vit_l_16_image_mae ()
mae_loss = ReconstructionLoss ()

# Define optimizer and lr scheduler
optimizer = torch . optim . AdamW ( mae_model . parameters ())
lr_scheduler = CosineWithWarmupAndLRScaling (
  optimizer , max_iters = 1000 , warmup_iters = 100  # you should set these
)

# Train one epoch
for batch in dataloader :
  model_out = mae_model ( batch [ "images" ])
  loss = mae_loss ( model_out . decoder_pred , model_out . label_patches , model_out . mask )
  loss . backward ()
  optimizer . step ()
  lr_scheduler . step ()

ภาพรวมรหัส

คบเพลิงหลายรูปแบบ / diffusion_labs

diffusion_labs มีส่วนประกอบสำหรับการสร้างแบบจำลองการแพร่กระจาย สำหรับรายละเอียดเพิ่มเติมเกี่ยวกับส่วนประกอบเหล่านี้ โปรดดู diffusion_labs/README.md

คบเพลิงหลายรูปแบบ/รุ่น

ดูคลาสโมเดลและโค้ดการสร้างแบบจำลองอื่นๆ ที่เฉพาะเจาะจงสำหรับสถาปัตยกรรมที่กำหนดได้ที่นี่ เช่นไดเร็กทอรี torchmultimodal/models/blip2 มีส่วนประกอบการสร้างแบบจำลองเฉพาะสำหรับ BLIP-2

คบเพลิงมัลติโมดัล/โมดูล

ดูที่นี่สำหรับเอกสารสำเร็จรูปทั่วไปที่สามารถต่อเข้าด้วยกันเพื่อสร้างสถาปัตยกรรมใหม่ได้ ซึ่งรวมถึงเลเยอร์ต่างๆ เช่น หนังสือโค้ด การฝังแพตช์ หรือตัวเข้ารหัส/ตัวถอดรหัสหม้อแปลง การสูญเสีย เช่น การสูญเสียเชิงเปรียบเทียบกับอุณหภูมิหรือการสูญเสียการสร้างใหม่ ตัวเข้ารหัส เช่น ViT และ BERT และโมดูลฟิวชัน เช่น ฟิวชั่น Deep Set

คบเพลิงหลายรูปแบบ/การเปลี่ยนแปลง

ดูที่นี่สำหรับการแปลงข้อมูลทั่วไปจากโมเดลยอดนิยม เช่น CLIP, FLAVA และ MAE

การติดตั้ง

TorchMultimodal ต้องใช้ Python >= 3.8 สามารถติดตั้งไลบรารีโดยมีหรือไม่มีการรองรับ CUDA ข้อมูลต่อไปนี้ถือว่าติดตั้ง conda แล้ว

ข้อกำหนดเบื้องต้น

ติดตั้งสภาพแวดล้อม conda

 conda create -n torch-multimodal python=<python_version>
conda activate torch-multimodal

ติดตั้ง pytorch, torchvision และ torchaudio ดูเอกสารประกอบของ PyTorch

 # Use the current CUDA version as seen [here](https://pytorch.org/get-started/locally/)
# Select the nightly Pytorch build, Linux as the OS, and conda. Pick the most recent CUDA version.
conda install pytorch torchvision torchaudio pytorch-cuda=<cuda_version> -c pytorch-nightly -c nvidia

# For CPU-only install
conda install pytorch torchvision torchaudio cpuonly -c pytorch-nightly

ติดตั้งจากไบนารี

ไบนารี่ทุกคืนบน Linux สำหรับ Python 3.8 และ 3.9 สามารถติดตั้งได้ผ่าน pip wheel ในตอนนี้เรารองรับแพลตฟอร์ม Linux ผ่าน PyPI เท่านั้น

 python -m pip install torchmultimodal-nightly

อาคารจากแหล่งที่มา

หรือคุณสามารถสร้างจากซอร์สโค้ดของเราและเรียกใช้ตัวอย่างของเรา:

 git clone --recursive https://github.com/facebookresearch/multimodal.git multimodal
cd multimodal

pip install -e .

สำหรับนักพัฒนาโปรดติดตามการติดตั้งการพัฒนา

มีส่วนร่วม

เรายินดีรับคำขอคุณลักษณะ รายงานข้อผิดพลาด หรือการดึงคำขอจากชุมชน ดูไฟล์การมีส่วนร่วมสำหรับวิธีการช่วยเหลือ

ใบอนุญาต

TorchMultimodal ได้รับอนุญาตจาก BSD ดังที่พบในไฟล์ LICENSE

ขยาย

ข้อมูลเพิ่มเติม

เวอร์ชัน
ประเภท ซอร์สโค้ดอื่น ๆ
เวลาอัปเดต 2024-11-21
ขนาด 50MB
มาจาก Github

แอปที่เกี่ยวข้อง

waymo open dataset

2024-11-18
SmartTube

2024-12-14
Sunamu

2024-12-14
MySchedule.py

2024-12-15
viptools for eslam

2024-12-15
VITAident

2024-12-15

แนะนำสำหรับคุณ

chat.petals.dev

ซอร์สโค้ดอื่น ๆ

1.0.0
GPT Prompt Templates

ซอร์สโค้ดอื่น ๆ

1.0.0
GPTyped

ซอร์สโค้ดอื่น ๆ

GPTyped 1.0.5
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
SmartTube

ซอร์สโค้ดอื่น ๆ

24.71 Stable
Sunamu

ซอร์สโค้ดอื่น ๆ

Release 2.2.0
waymo open dataset

ซอร์สโค้ดอื่น ๆ

December 2023 Update
wp functions

หมวดหมู่อื่นๆ

1.0.0
termwind

หมวดหมู่อื่นๆ

v2.3.0

ข้อมูลที่เกี่ยวข้อง ทั้งหมด