Download do Youku mPLUG - Download do código-fonte Youku mPLUG

Youku mPLUG

Outro código-fonte

1.0.0

Baixar

Conjunto de dados de texto de vídeo em grande escala chinês Youku-mPLUG 10M

Youku-mPLUG: um conjunto de dados e benchmarks de pré-treinamento em língua de vídeo chinesa em grande escala de 10 milhões, link para download AQUI

Papel

exemplos para youku-mplug

O que é Youku-mPLUG?

Lançamos o maior conjunto público de dados chineses em linguagem de vídeo de alta qualidade (10 milhões) chamado Youku-mPLUG , que é coletado de um conhecido site chinês de compartilhamento de vídeo, chamado Youku, com critérios rígidos de segurança, diversidade e qualidade.

exemplos para youku-mplug

Exemplos de videoclipes e títulos no conjunto de dados Youku-mPLUG proposto.

Fornecemos três conjuntos de dados de benchmark de vídeo multimodais downstream diferentes para medir as capacidades de modelos pré-treinados. As 3 tarefas diferentes incluem:

Previsão de categoria de vídeo: Dado um vídeo e seu título correspondente, preveja a categoria do vídeo.
Recuperação de Vídeo-Texto: Na presença de alguns vídeos e alguns textos, use vídeo para recuperação de texto e texto para recuperação de vídeo.
Legendagem de vídeo: Na presença de um vídeo, descreva o conteúdo do vídeo.

exemplos para conjunto de dados downstream youku-mplug

Estatísticas de dados

O conjunto de dados contém 10 milhões de vídeos no total, que são de alta qualidade e distribuídos em 20 supercategorias, podendo 45 categorias.

estatísticas

A distribuição de categorias no conjunto de dados Youku-mPLUG.

Capacidade de disparo zero

caso1 caso2

Download

Você pode baixar todos os vídeos e arquivos de anotações através deste link

Configurar

Nota: Devido a um bug no megatron_util, após instalar o megatron_util, é necessário substituir conda/envs/youku/lib/python3.10/site-packages/megatron_util/initialize.py pelo inicialize.py no diretório atual.

 conda env create -f environment.yml
conda activate youku
pip install megatron_util==1.3.0 -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

# For caption evaluation
apt-get install default-jre

mPLUG-Vídeo (1,3B / 2,7B)

Pré-treino

Primeiro você deve baixar o ponto de verificação GPT-3 1.3B e 2.7B do Modelscope. O modelo pré-treinado pode ser baixado aqui (1.3B) e aqui (2.7B).

Executando o pré-treinamento do mPLUG-Video como:

 exp_name = 'pretrain/gpt3_1.3B/pretrain_gpt3_freezeGPT_youku_v0'
PYTHONPATH = $ PYTHONPATH :. / 
python - m torch . distributed . launch - - nproc_per_node = 8 - - master_addr = $ MASTER_ADDR 
  - - master_port = $ MASTER_PORT 
  - - nnodes = $ WORLD_SIZE 
  - - node_rank = $ RANK 
  - - use_env run_pretrain_distributed_gpt3 . py 
  - - config . / configs / ${ exp_name }. yaml 
  - - output_dir . / output / ${ exp_name } 
  - - enable_deepspeed 
  - - bf16
  2 > & 1 | tee . / output / ${ exp_name } / train . log

Comparativo de mercado

Para realizar o ajuste fino downstream. Tomamos a previsão de categoria de vídeo como exemplo:

 exp_name = 'cls/cls_gpt3_1.3B_youku_v0_sharp_2'
PYTHONPATH = $ PYTHONPATH :. / 
python - m torch . distributed . launch - - nproc_per_node = 8 - - master_addr = $ MASTER_ADDR 
  - - master_port = $ MASTER_PORT 
  - - nnodes = $ WORLD_SIZE 
  - - node_rank = $ RANK 
  - - use_env downstream / run_cls_distributed_gpt3 . py 
  - - config . / configs / ${ exp_name }. yaml 
  - - output_dir . / output / ${ exp_name } 
  - - enable_deepspeed 
  - - resume path / to / 1_3 B_mp_rank_00_model_states . pt 
  - - bf16
  2 > & 1 | tee . / output / ${ exp_name } / train . log

Resultados experimentais

Abaixo mostramos os resultados nos conjuntos de validação para referência.

Resultados de previsão de categoria de vídeo no conjunto de validação. Resultados da recuperação de vídeo no conjunto de validação.

mPLUG-Vídeo (BloomZ-7B)

Construímos o modelo mPLUG-Video baseado em mPLUG-Owl. Para usar o modelo, você deve primeiro clonar o repositório mPLUG-Owl como

git clone https://github.com/X-PLUG/mPLUG-Owl.git
cd mPLUG-Owl/mPLUG-Owl

O ponto de verificação ajustado por instrução está disponível no HuggingFace. Para ajustar o modelo, você pode consultar o mPLUG-Owl Repo. Para realizar inferência de vídeo você pode usar o seguinte código:

 import torch
from mplug_owl_video . modeling_mplug_owl import MplugOwlForConditionalGeneration
from transformers import AutoTokenizer
from mplug_owl_video . processing_mplug_owl import MplugOwlImageProcessor , MplugOwlProcessor

pretrained_ckpt = 'MAGAer13/mplug-youku-bloomz-7b'
model = MplugOwlForConditionalGeneration . from_pretrained (
    pretrained_ckpt ,
    torch_dtype = torch . bfloat16 ,
    device_map = { '' : 0 },
)
image_processor = MplugOwlImageProcessor . from_pretrained ( pretrained_ckpt )
tokenizer = AutoTokenizer . from_pretrained ( pretrained_ckpt )
processor = MplugOwlProcessor ( image_processor , tokenizer )

# We use a human/AI template to organize the context as a multi-turn conversation.
# <|video|> denotes an video placehold.
prompts = [
'''The following is a conversation between a curious human and AI assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
Human: <|video|>
Human: 视频中的女人在干什么？
AI: ''' ]

video_list = [ 'yoga.mp4' ]

# generate kwargs (the same in transformers) can be passed in the do_generate()
generate_kwargs = {
    'do_sample' : True ,
    'top_k' : 5 ,
    'max_length' : 512
}
inputs = processor ( text = prompts , videos = video_list , num_frames = 4 , return_tensors = 'pt' )
inputs = { k : v . bfloat16 () if v . dtype == torch . float else v for k , v in inputs . items ()}
inputs = { k : v . to ( model . device ) for k , v in inputs . items ()}
with torch . no_grad ():
    res = model . generate ( ** inputs , ** generate_kwargs )
sentence = tokenizer . decode ( res . tolist ()[ 0 ], skip_special_tokens = True )
print ( sentence )

Citando Youku-mPLUG

Se você achar este conjunto de dados útil para sua pesquisa, considere citar nosso artigo.

 @misc { xu2023youku_mplug ,
    title = { Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks } ,
    author = { Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Chenliang Li, Qi Qian, Que Maofei, Ji Zhang, Xiao Zeng, Fei Huang } ,
    year = { 2023 } ,
    eprint = { 2306.04362 } ,
    archivePrefix = { arXiv } ,
    primaryClass = { cs.CL }
}

Expandir

Informações adicionais

Versão 1.0.0
Tipo Outro código-fonte
Data da Última Atualização 2024-12-13
tamanho 15.45MB
Vindo de Github

Aplicativos Relacionados

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recomendado para você

chat.petals.dev

Outro código-fonte

1.0.0
GPT Prompt Templates

Outro código-fonte

1.0.0
GPTyped

Outro código-fonte

GPTyped 1.0.5
waymo open dataset

Outro código-fonte

December 2023 Update
SmartTube

Outro código-fonte

24.71 Stable
Sunamu

Outro código-fonte

Release 2.2.0
waymo open dataset

Outro código-fonte

December 2023 Update
termwind

Outras categorias

v2.3.0
wp functions

Outras categorias

1.0.0

Informações Relacionadas Todos