Descarga de Youku mPLUG - Descarga del código fuente Youku mPLUG

Youku mPLUG

Otro código fuente

1.0.0

Descargar

Conjunto de datos de texto y vídeo a gran escala chino Youku-mPLUG 10M

Youku-mPLUG: un conjunto de datos de preentrenamiento de lenguajes de video chinos a gran escala y puntos de referencia Enlace de descarga AQUÍ

Papel

ejemplos para youku-mplug

¿Qué es Youku-mPLUG?

Publicamos el conjunto de datos de lenguaje de video de alta calidad chino más grande (10 millones) llamado Youku-mPLUG , que se recopila de un conocido sitio web chino para compartir videos, llamado Youku, con estrictos criterios de seguridad, diversidad y calidad.

ejemplos para youku-mplug

Ejemplos de videoclips y títulos en el conjunto de datos propuesto de Youku-mPLUG.

Proporcionamos 3 conjuntos de datos de referencia de video multimodal descendente diferentes para medir las capacidades de los modelos previamente entrenados. Las 3 tareas diferentes incluyen:

Predicción de categoría de video: dado un video y su título correspondiente, predice la categoría del video.
Recuperación de texto y video: en presencia de algunos videos y algunos textos, use video para recuperar texto y texto para recuperar video.
Subtítulos de video: en presencia de un video, describa el contenido del video.

ejemplos para el conjunto de datos descendentes youku-mplug

Estadísticas de datos

El conjunto de datos contiene 10 millones de videos en total, que son de alta calidad y están distribuidos en 20 súper categorías en 45 categorías.

estadística

La distribución de categorías en el conjunto de datos Youku-mPLUG.

Capacidad de disparo cero

caso1 caso2

Descargar

Puedes descargar todos los vídeos y archivos de anotaciones a través de este enlace

Configuración

Nota: Debido a un error en megatron_util, después de instalar megatron_util, es necesario reemplazar conda/envs/youku/lib/python3.10/site-packages/megatron_util/initialize.py con inicialize.py en el directorio actual.

 conda env create -f environment.yml
conda activate youku
pip install megatron_util==1.3.0 -f https://modelscope.oss-cn-beijing.aliyuncs.com/releases/repo.html

# For caption evaluation
apt-get install default-jre

mPLUG-Video (1.3B / 2.7B)

Pre-entrenamiento

Primero debes descargar el punto de control GPT-3 1.3B y 2.7B de Modelscope. El modelo previamente entrenado se puede descargar aquí (1.3B) y aquí (2.7B).

Ejecutar el entrenamiento previo de mPLUG-Video como:

 exp_name = 'pretrain/gpt3_1.3B/pretrain_gpt3_freezeGPT_youku_v0'
PYTHONPATH = $ PYTHONPATH :. / 
python - m torch . distributed . launch - - nproc_per_node = 8 - - master_addr = $ MASTER_ADDR 
  - - master_port = $ MASTER_PORT 
  - - nnodes = $ WORLD_SIZE 
  - - node_rank = $ RANK 
  - - use_env run_pretrain_distributed_gpt3 . py 
  - - config . / configs / ${ exp_name }. yaml 
  - - output_dir . / output / ${ exp_name } 
  - - enable_deepspeed 
  - - bf16
  2 > & 1 | tee . / output / ${ exp_name } / train . log

Evaluación comparativa

Para realizar ajustes posteriores. Tomamos la Predicción de categorías de videos como ejemplo:

 exp_name = 'cls/cls_gpt3_1.3B_youku_v0_sharp_2'
PYTHONPATH = $ PYTHONPATH :. / 
python - m torch . distributed . launch - - nproc_per_node = 8 - - master_addr = $ MASTER_ADDR 
  - - master_port = $ MASTER_PORT 
  - - nnodes = $ WORLD_SIZE 
  - - node_rank = $ RANK 
  - - use_env downstream / run_cls_distributed_gpt3 . py 
  - - config . / configs / ${ exp_name }. yaml 
  - - output_dir . / output / ${ exp_name } 
  - - enable_deepspeed 
  - - resume path / to / 1_3 B_mp_rank_00_model_states . pt 
  - - bf16
  2 > & 1 | tee . / output / ${ exp_name } / train . log

Resultados experimentales

A continuación mostramos los resultados de los conjuntos de validación como referencia.

Resultados de predicción de categorías de vídeo en el conjunto de validación. Resultados de recuperación de vídeo en el conjunto de validación.

mPLUG-Video (BloomZ-7B)

Construimos el modelo mPLUG-Video basado en mPLUG-Owl. Para usar el modelo, primero debe clonar el repositorio mPLUG-Owl como

git clone https://github.com/X-PLUG/mPLUG-Owl.git
cd mPLUG-Owl/mPLUG-Owl

El punto de control ajustado a las instrucciones está disponible en HuggingFace. Para ajustar el modelo, puede consultar mPLUG-Owl Repo. Para realizar una inferencia de video, puede utilizar el siguiente código:

 import torch
from mplug_owl_video . modeling_mplug_owl import MplugOwlForConditionalGeneration
from transformers import AutoTokenizer
from mplug_owl_video . processing_mplug_owl import MplugOwlImageProcessor , MplugOwlProcessor

pretrained_ckpt = 'MAGAer13/mplug-youku-bloomz-7b'
model = MplugOwlForConditionalGeneration . from_pretrained (
    pretrained_ckpt ,
    torch_dtype = torch . bfloat16 ,
    device_map = { '' : 0 },
)
image_processor = MplugOwlImageProcessor . from_pretrained ( pretrained_ckpt )
tokenizer = AutoTokenizer . from_pretrained ( pretrained_ckpt )
processor = MplugOwlProcessor ( image_processor , tokenizer )

# We use a human/AI template to organize the context as a multi-turn conversation.
# <|video|> denotes an video placehold.
prompts = [
'''The following is a conversation between a curious human and AI assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
Human: <|video|>
Human: 视频中的女人在干什么？
AI: ''' ]

video_list = [ 'yoga.mp4' ]

# generate kwargs (the same in transformers) can be passed in the do_generate()
generate_kwargs = {
    'do_sample' : True ,
    'top_k' : 5 ,
    'max_length' : 512
}
inputs = processor ( text = prompts , videos = video_list , num_frames = 4 , return_tensors = 'pt' )
inputs = { k : v . bfloat16 () if v . dtype == torch . float else v for k , v in inputs . items ()}
inputs = { k : v . to ( model . device ) for k , v in inputs . items ()}
with torch . no_grad ():
    res = model . generate ( ** inputs , ** generate_kwargs )
sentence = tokenizer . decode ( res . tolist ()[ 0 ], skip_special_tokens = True )
print ( sentence )

Citando a Youku-mPLUG

Si encuentra que este conjunto de datos es útil para su investigación, considere citar nuestro artículo.

 @misc { xu2023youku_mplug ,
    title = { Youku-mPLUG: A 10 Million Large-scale Chinese Video-Language Dataset for Pre-training and Benchmarks } ,
    author = { Haiyang Xu, Qinghao Ye, Xuan Wu, Ming Yan, Yuan Miao, Jiabo Ye, Guohai Xu, Anwen Hu, Yaya Shi, Chenliang Li, Qi Qian, Que Maofei, Ji Zhang, Xiao Zeng, Fei Huang } ,
    year = { 2023 } ,
    eprint = { 2306.04362 } ,
    archivePrefix = { arXiv } ,
    primaryClass = { cs.CL }
}

Expandir

Información adicional

Versión 1.0.0
Tipo Otro código fuente
Fecha de actualización 2024-12-13
tamaño 15.45MB
Proviene de Github

Aplicaciones relacionadas

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch ull navra maza navsacha 2 2024 ull ovie Fr e Online On Strea ings

2024-11-03
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
GitHub actions/download artifact

2024-11-01

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
waymo open dataset

Otro código fuente

December 2023 Update
SmartTube

Otro código fuente

24.71 Stable
Sunamu

Otro código fuente

Release 2.2.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo