Youku-mPLUG: Kumpulan Data dan Tolok Ukur Pra-pelatihan Bahasa Mandarin Berskala Besar 10 Juta Tautan Unduh DI SINI
Kertas
Kami merilis kumpulan data video berbahasa Tiongkok berkualitas tinggi terbesar (10 juta) yang diberi nama Youku-mPLUG , yang dikumpulkan dari situs berbagi video Tiongkok terkenal, bernama Youku, dengan kriteria keamanan, keragaman, dan kualitas yang ketat.
Contoh klip video dan judul pada dataset Youku-mPLUG yang diusulkan.
Kami menyediakan 3 kumpulan data benchmark video multimoda hilir yang berbeda untuk mengukur kemampuan model yang telah dilatih sebelumnya. 3 tugas berbeda tersebut meliputi:
Dataset tersebut berisi total 10 juta video berkualitas tinggi dan didistribusikan dalam 20 kategori super dan 45 kategori.
Distribusi kategori dalam dataset Youku-mPLUG.
Anda dapat mengunduh semua video dan file anotasi melalui tautan ini
Catatan: Karena ada bug di megatron_util, setelah menginstal megatron_util, conda/envs/youku/lib/python3.10/site-packages/megatron_util/initialize.py perlu diganti dengan inisialisasi.py di direktori saat ini.
conda env create -f environment.yml
conda activate youku
pip install megatron_util==1.3.0 -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html
# For caption evaluation
apt-get install default-jre
Pertama, Anda harus mengunduh pos pemeriksaan GPT-3 1.3B & 2.7B dari Modelscope. Model terlatih dapat diunduh Di Sini (1.3B) dan Di Sini (2.7B).
Menjalankan pra-pelatihan mPLUG-Video sebagai:
exp_name = 'pretrain/gpt3_1.3B/pretrain_gpt3_freezeGPT_youku_v0'
PYTHONPATH = $ PYTHONPATH :. /
python - m torch . distributed . launch - - nproc_per_node = 8 - - master_addr = $ MASTER_ADDR
- - master_port = $ MASTER_PORT
- - nnodes = $ WORLD_SIZE
- - node_rank = $ RANK
- - use_env run_pretrain_distributed_gpt3 . py
- - config . / configs / ${ exp_name }. yaml
- - output_dir . / output / ${ exp_name }
- - enable_deepspeed
- - bf16
2 > & 1 | tee . / output / ${ exp_name } / train . log
Untuk melakukan penyempurnaan hilir. Kami mengambil Prediksi Kategori Video sebagai contoh:
exp_name = 'cls/cls_gpt3_1.3B_youku_v0_sharp_2'
PYTHONPATH = $ PYTHONPATH :. /
python - m torch . distributed . launch - - nproc_per_node = 8 - - master_addr = $ MASTER_ADDR
- - master_port = $ MASTER_PORT
- - nnodes = $ WORLD_SIZE
- - node_rank = $ RANK
- - use_env downstream / run_cls_distributed_gpt3 . py
- - config . / configs / ${ exp_name }. yaml
- - output_dir . / output / ${ exp_name }
- - enable_deepspeed
- - resume path / to / 1_3 B_mp_rank_00_model_states . pt
- - bf16
2 > & 1 | tee . / output / ${ exp_name } / train . log
Di bawah ini kami menampilkan hasil set validasi untuk referensi.
Kami membangun model mPLUG-Video berdasarkan mPLUG-Owl. Untuk menggunakan model ini, Anda harus mengkloning repo mPLUG-Owl terlebih dahulu sebagai
git clone https://github.com/X-PLUG/mPLUG-Owl.git
cd mPLUG-Owl/mPLUG-Owl
Pos pemeriksaan yang disesuaikan dengan instruksi tersedia di HuggingFace. Untuk menyempurnakan model, Anda dapat merujuk ke mPLUG-Owl Repo. Untuk melakukan inferensi video Anda dapat menggunakan kode berikut:
import torch
from mplug_owl_video . modeling_mplug_owl import MplugOwlForConditionalGeneration
from transformers import AutoTokenizer
from mplug_owl_video . processing_mplug_owl import MplugOwlImageProcessor , MplugOwlProcessor
pretrained_ckpt = 'MAGAer13/mplug-youku-bloomz-7b'
model = MplugOwlForConditionalGeneration . from_pretrained (
pretrained_ckpt ,
torch_dtype = torch . bfloat16 ,
device_map = { '' : 0 },
)
image_processor = MplugOwlImageProcessor . from_pretrained ( pretrained_ckpt )
tokenizer = AutoTokenizer . from_pretrained ( pretrained_ckpt )
processor = MplugOwlProcessor ( image_processor , tokenizer )
# We use a human/AI template to organize the context as a multi-turn conversation.
# <|video|> denotes an video placehold.
prompts = [
'''The following is a conversation between a curious human and AI assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
Human: <|video|>
Human: 视频中的女人在干什么?
AI: ''' ]
video_list = [ 'yoga.mp4' ]
# generate kwargs (the same in transformers) can be passed in the do_generate()
generate_kwargs = {
'do_sample' : True ,
'top_k' : 5 ,
'max_length' : 512
}
inputs = processor ( text = prompts , videos = video_list , num_frames = 4 , return_tensors = 'pt' )
inputs = { k : v . bfloat16 () if v . dtype == torch . float else v for k , v in inputs . items ()}
inputs = { k : v . to ( model . device ) for k , v in inputs . items ()}
with torch . no_grad ():
res = model . generate ( ** inputs , ** generate_kwargs )
sentence = tokenizer . decode ( res . tolist ()[ 0 ], skip_special_tokens = True )
print ( sentence )
Jika Anda merasa kumpulan data ini berguna untuk penelitian Anda, mohon pertimbangkan untuk mengutip makalah kami.
@misc { xu2023youku_mplug ,
title = { Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks } ,
author = { Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Chenliang Li, Qi Qian, Que Maofei, Ji Zhang, Xiao Zeng, Fei Huang } ,
year = { 2023 } ,
eprint = { 2306.04362 } ,
archivePrefix = { arXiv } ,
primaryClass = { cs.CL }
}