Unduh Youku mPLUG - Unduh kode sumber Youku mPLUG

Youku mPLUG

Kode sumber lainnya

1.0.0

Unduh

Youku-mPLUG 10 Juta Kumpulan Data Teks Video Skala Besar Tiongkok

Youku-mPLUG: Kumpulan Data dan Tolok Ukur Pra-pelatihan Bahasa Mandarin Berskala Besar 10 Juta Tautan Unduh DI SINI

Kertas

contoh untuk youku-mplug

Apa itu Youku-mPLUG?

Kami merilis kumpulan data video berbahasa Tiongkok berkualitas tinggi terbesar (10 juta) yang diberi nama Youku-mPLUG , yang dikumpulkan dari situs berbagi video Tiongkok terkenal, bernama Youku, dengan kriteria keamanan, keragaman, dan kualitas yang ketat.

contoh untuk youku-mplug

Contoh klip video dan judul pada dataset Youku-mPLUG yang diusulkan.

Kami menyediakan 3 kumpulan data benchmark video multimoda hilir yang berbeda untuk mengukur kemampuan model yang telah dilatih sebelumnya. 3 tugas berbeda tersebut meliputi:

Prediksi Kategori Video：Mengingat video dan judulnya yang sesuai, prediksi kategori video tersebut.
Pengambilan Teks-Video：Jika terdapat beberapa video dan beberapa teks, gunakan video untuk pengambilan teks dan teks untuk pengambilan video.
Keterangan Video：Jika ada video, jelaskan isi video tersebut.

contoh untuk kumpulan data hilir youku-mplug

Statistik data

Dataset tersebut berisi total 10 juta video berkualitas tinggi dan didistribusikan dalam 20 kategori super dan 45 kategori.

statistik

Distribusi kategori dalam dataset Youku-mPLUG.

Kemampuan Tembakan Nol

kasus1 kasus2

Unduh

Anda dapat mengunduh semua video dan file anotasi melalui tautan ini

Pengaturan

Catatan: Karena ada bug di megatron_util, setelah menginstal megatron_util, conda/envs/youku/lib/python3.10/site-packages/megatron_util/initialize.py perlu diganti dengan inisialisasi.py di direktori saat ini.

 conda env create -f environment.yml
conda activate youku
pip install megatron_util==1.3.0 -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

# For caption evaluation
apt-get install default-jre

mPLUG-Video (1.3B / 2.7B)

Pra-kereta api

Pertama, Anda harus mengunduh pos pemeriksaan GPT-3 1.3B & 2.7B dari Modelscope. Model terlatih dapat diunduh Di Sini (1.3B) dan Di Sini (2.7B).

Menjalankan pra-pelatihan mPLUG-Video sebagai:

 exp_name = 'pretrain/gpt3_1.3B/pretrain_gpt3_freezeGPT_youku_v0'
PYTHONPATH = $ PYTHONPATH :. / 
python - m torch . distributed . launch - - nproc_per_node = 8 - - master_addr = $ MASTER_ADDR 
  - - master_port = $ MASTER_PORT 
  - - nnodes = $ WORLD_SIZE 
  - - node_rank = $ RANK 
  - - use_env run_pretrain_distributed_gpt3 . py 
  - - config . / configs / ${ exp_name }. yaml 
  - - output_dir . / output / ${ exp_name } 
  - - enable_deepspeed 
  - - bf16
  2 > & 1 | tee . / output / ${ exp_name } / train . log

Pembandingan

Untuk melakukan penyempurnaan hilir. Kami mengambil Prediksi Kategori Video sebagai contoh:

 exp_name = 'cls/cls_gpt3_1.3B_youku_v0_sharp_2'
PYTHONPATH = $ PYTHONPATH :. / 
python - m torch . distributed . launch - - nproc_per_node = 8 - - master_addr = $ MASTER_ADDR 
  - - master_port = $ MASTER_PORT 
  - - nnodes = $ WORLD_SIZE 
  - - node_rank = $ RANK 
  - - use_env downstream / run_cls_distributed_gpt3 . py 
  - - config . / configs / ${ exp_name }. yaml 
  - - output_dir . / output / ${ exp_name } 
  - - enable_deepspeed 
  - - resume path / to / 1_3 B_mp_rank_00_model_states . pt 
  - - bf16
  2 > & 1 | tee . / output / ${ exp_name } / train . log

Hasil percobaan

Di bawah ini kami menampilkan hasil set validasi untuk referensi.

Hasil prediksi kategori video pada set validasi. Hasil pengambilan video pada set validasi.

mPLUG-Video (BloomZ-7B)

Kami membangun model mPLUG-Video berdasarkan mPLUG-Owl. Untuk menggunakan model ini, Anda harus mengkloning repo mPLUG-Owl terlebih dahulu sebagai

git clone https://github.com/X-PLUG/mPLUG-Owl.git
cd mPLUG-Owl/mPLUG-Owl

Pos pemeriksaan yang disesuaikan dengan instruksi tersedia di HuggingFace. Untuk menyempurnakan model, Anda dapat merujuk ke mPLUG-Owl Repo. Untuk melakukan inferensi video Anda dapat menggunakan kode berikut:

 import torch
from mplug_owl_video . modeling_mplug_owl import MplugOwlForConditionalGeneration
from transformers import AutoTokenizer
from mplug_owl_video . processing_mplug_owl import MplugOwlImageProcessor , MplugOwlProcessor

pretrained_ckpt = 'MAGAer13/mplug-youku-bloomz-7b'
model = MplugOwlForConditionalGeneration . from_pretrained (
    pretrained_ckpt ,
    torch_dtype = torch . bfloat16 ,
    device_map = { '' : 0 },
)
image_processor = MplugOwlImageProcessor . from_pretrained ( pretrained_ckpt )
tokenizer = AutoTokenizer . from_pretrained ( pretrained_ckpt )
processor = MplugOwlProcessor ( image_processor , tokenizer )

# We use a human/AI template to organize the context as a multi-turn conversation.
# <|video|> denotes an video placehold.
prompts = [
'''The following is a conversation between a curious human and AI assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
Human: <|video|>
Human: 视频中的女人在干什么？
AI: ''' ]

video_list = [ 'yoga.mp4' ]

# generate kwargs (the same in transformers) can be passed in the do_generate()
generate_kwargs = {
    'do_sample' : True ,
    'top_k' : 5 ,
    'max_length' : 512
}
inputs = processor ( text = prompts , videos = video_list , num_frames = 4 , return_tensors = 'pt' )
inputs = { k : v . bfloat16 () if v . dtype == torch . float else v for k , v in inputs . items ()}
inputs = { k : v . to ( model . device ) for k , v in inputs . items ()}
with torch . no_grad ():
    res = model . generate ( ** inputs , ** generate_kwargs )
sentence = tokenizer . decode ( res . tolist ()[ 0 ], skip_special_tokens = True )
print ( sentence )

Mengutip Youku-mPLUG

Jika Anda merasa kumpulan data ini berguna untuk penelitian Anda, mohon pertimbangkan untuk mengutip makalah kami.

 @misc { xu2023youku_mplug ,
    title = { Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks } ,
    author = { Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Chenliang Li, Qi Qian, Que Maofei, Ji Zhang, Xiao Zeng, Fei Huang } ,
    year = { 2023 } ,
    eprint = { 2306.04362 } ,
    archivePrefix = { arXiv } ,
    primaryClass = { cs.CL }
}

Memperluas

Informasi Tambahan

Versi 1.0.0
Tipe Kode sumber lainnya
Waktu Pembaruan 2024-12-13
ukuran 15.45MB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
SmartTube

Kode sumber lainnya

24.71 Stable
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua