multimodal下载 - multimodal源代码下载

multimodal

其他源码

下载

TorchMultimodal（测试版）

型号|示例脚本|开始使用|代码概述|安装|贡献|执照

介绍

TorchMultimodal是一个 PyTorch 库，用于大规模训练最先进的多模式多任务模型，包括内容理解和生成模型。 TorchMultimodal 包含：

模块化和可组合构建块（融合层、损失函数、数据集和实用程序）的存储库。
由具有规范配置的预训练权重的所述构建块构建的常见多模式模型类的集合。
一组示例展示了如何将这些构建块与整个 PyTorch 生态系统的组件和通用基础设施结合起来，以复制文献中发布的最先进的模型。这些例子应该作为该领域正在进行的研究的基线，以及未来工作的起点。

型号

TorchMultimodal 包含许多模型，包括

ALBEF：模型类，论文
BLIP-2：模型类，论文
CLIP：模型类，论文
CoCa：模型类，论文
DALL-E 2：模型，纸质
FLAVA：模型类，论文
MAE/Audio MAE：模型类、MAE论文、音频MAE论文
MDETR：模型类，论文

示例脚本

除了上述模型之外，我们还提供了用于在流行的多模式任务上训练、微调和评估模型的示例脚本。示例可以在示例/下找到，包括

模型	支持的任务
ALBEF	检索视觉问答
DDPM	训练和推理（笔记本）
弗拉瓦	预训练微调零射击
多维数据传输	短语接地视觉问答
无限	文本到视频检索文本到视频生成
杂食动物	预训练评估

入门

下面我们给出了一些简单的示例，说明如何使用 TorchMultimodal 的组件编写简单的训练或零样本评估脚本。

FLAVA 零样本示例

 import torch
from PIL import Image
from torchmultimodal . models . flava . model import flava_model
from torchmultimodal . transforms . bert_text_transform import BertTextTransform
from torchmultimodal . transforms . flava_transform import FLAVAImageTransform

# Define helper function for zero-shot prediction
def predict ( zero_shot_model , image , labels ):
  zero_shot_model . eval ()
  with torch . no_grad ():
      image = image_transform ( img )[ "image" ]. unsqueeze ( 0 )
      texts = text_transform ( labels )
      _ , image_features = zero_shot_model . encode_image ( image , projection = True )
      _ , text_features = zero_shot_model . encode_text ( texts , projection = True )
      scores = image_features @ text_features . t ()
      probs = torch . nn . Softmax ( dim = - 1 )( scores )
      label = labels [ torch . argmax ( probs )]
      print (
          "Label probabilities: " ,
          { labels [ i ]: probs [:, i ] for i in range ( len ( labels ))},
      )
      print ( f"Predicted label: { label } " )


image_transform = FLAVAImageTransform ( is_train = False )
text_transform = BertTextTransform ()
zero_shot_model = flava_model ( pretrained = True )
img = Image . open ( "my_image.jpg" )  # point to your own image
predict ( zero_shot_model , img , [ "dog" , "cat" , "house" ])

# Example output:
# Label probabilities:  {'dog': tensor([0.80590]), 'cat': tensor([0.0971]), 'house': tensor([0.0970])}
# Predicted label: dog

MAE 训练示例

 import torch
from torch . utils . data import DataLoader
from torchmultimodal . models . masked_auto_encoder . model import vit_l_16_image_mae
from torchmultimodal . models . masked_auto_encoder . utils import (
  CosineWithWarmupAndLRScaling ,
)
from torchmultimodal . modules . losses . reconstruction_loss import ReconstructionLoss
from torchmultimodal . transforms . mae_transform import ImagePretrainTransform

mae_transform = ImagePretrainTransform ()
dataset = MyDatasetClass ( transforms = mae_transform )  # you should define this
dataloader = DataLoader ( dataset , batch_size = 8 )

# Instantiate model and loss
mae_model = vit_l_16_image_mae ()
mae_loss = ReconstructionLoss ()

# Define optimizer and lr scheduler
optimizer = torch . optim . AdamW ( mae_model . parameters ())
lr_scheduler = CosineWithWarmupAndLRScaling (
  optimizer , max_iters = 1000 , warmup_iters = 100  # you should set these
)

# Train one epoch
for batch in dataloader :
  model_out = mae_model ( batch [ "images" ])
  loss = mae_loss ( model_out . decoder_pred , model_out . label_patches , model_out . mask )
  loss . backward ()
  optimizer . step ()
  lr_scheduler . step ()

代码概述

torchmultimodal/diffusion_labs

diffusive_labs 包含用于构建扩散模型的组件。有关这些组件的更多详细信息，请参阅diffusion_labs/README.md。

火炬多式联运/型号

在此处查找模型类以及特定于给定架构的任何其他建模代码。例如，目录 torchmultimodal/models/blip2 包含特定于 BLIP-2 的建模组件。

火炬多式联运/模块

在这里查找可以拼接在一起构建新架构的常见通用构建块。这包括码本、补丁嵌入或变压器编码器/解码器等层、温度对比损失或重建损失等损失、ViT 和 BERT 等编码器以及 Deep Set fusion 等融合模块。

火炬多模式/转换

在此处查找流行模型（例如 CLIP、FLAVA 和 MAE）的常见数据转换。

安装

TorchMultimodal 需要 Python >= 3.8。该库可以在有或没有 CUDA 支持的情况下安装。以下假设已安装 conda。

先决条件

安装conda环境

 conda create -n torch-multimodal python=<python_version>
conda activate torch-multimodal

安装 pytorch、torchvision 和 torchaudio。请参阅 PyTorch 文档。

 # Use the current CUDA version as seen [here](https://pytorch.org/get-started/locally/)
# Select the nightly Pytorch build, Linux as the OS, and conda. Pick the most recent CUDA version.
conda install pytorch torchvision torchaudio pytorch-cuda=<cuda_version> -c pytorch-nightly -c nvidia

# For CPU-only install
conda install pytorch torchvision torchaudio cpuonly -c pytorch-nightly

从二进制文件安装

Linux 上的 Python 3.8 和 3.9 的 Nightly 二进制文件可以通过 pipwheels 安装。目前我们仅通过 PyPI 支持 Linux 平台。

 python -m pip install torchmultimodal-nightly

从源头构建

或者，您也可以从我们的源代码构建并运行我们的示例：

 git clone --recursive https://github.com/facebookresearch/multimodal.git multimodal
cd multimodal

pip install -e .

开发者请按照开发安装。

贡献

我们欢迎来自社区的任何功能请求、错误报告或拉取请求。请参阅贡献文件以了解如何提供帮助。

执照

TorchMultimodal 已获得 BSD 许可，如 LICENSE 文件中所示。

展开

附加信息

版本
类型其他源码
更新时间 2024-11-21
大小 50MB
来自于 Github

multimodal

TorchMultimodal（测试版）

介绍

型号

示例脚本

入门

代码概述

torchmultimodal/diffusion_labs

火炬多式联运/型号

火炬多式联运/模块

火炬多模式/转换

安装

先决条件

从二进制文件安装

从源头构建

贡献

执照

waymo open dataset

SmartTube

Sunamu

MySchedule.py

viptools for eslam

VITAident

chat.petals.dev

GPT Prompt Templates

GPTyped

waymo open dataset

SmartTube

Sunamu

waymo open dataset

wp functions

termwind