Descarga Otter - Descarga del código fuente Otter

Otter

Otro código fuente

1.0.0

Descargar

Créditos del proyecto | Papel de nutria | Papel Otterhd | Papel de imitación

Puntos de control:

Luodian/Otter-Image-MPT7B
Luodian/Otter-Video-llama7b-Densecaption

Para quién en China continental: |

Descargo de responsabilidad: el código puede no estar perfectamente pulido y refactorizado, pero todos los códigos abiertos se prueban y se ejecutan, ya que también usamos el código para respaldar nuestra investigación. Si tiene alguna pregunta, no dude en abrir un problema. Esperamos ansiosamente sugerencias y PRS para mejorar la calidad del código.

? Actualizar

[2023-11]: Apoyo a la evaluación de GPT4V en 8 puntos de referencia; Anuncia de OTTERHD-8B, mejorado de Fuyu-8b. Vea la OTTERHD para más detalles.

? Se agregó OTTERHD, un multimodal ajustado de FUYU-8B para facilitar las interpretaciones de grano fino de la entrada visual de alta resolución sin un módulo de codificador de visión explícito . Todos los parches de imagen se transforman y procesan lineal junto con tokens de texto. Esta es una exploración muy innovadora y elegante. Estamos fascinados y pavimentados de esta manera, abrimos el guión Finetune para FUYU-8B y mejoramos el rendimiento del entrenamiento en 4-5 veces más rápido con Flash-Atention-2. Pruebe nuestro script Finetune en Otterhd.
? Se agregó MagnifierBench, un punto de referencia de evaluación adaptado para evaluar si el modelo puede identificar la información de los objetos pequeños (tamaño de imagen del 1%) y las relaciones espaciales.

Tubería mejorada para el pretrain | SFT | RLHF con (parte de) LMM de corriente principal.

Modelos : nutria | OpenFlamingo | IDEFICS | Fuyu
Interfaz de conjuntos de datos de capacitación: (Pretrain) MMC4 | Laion2b | CC3M | CC12M, (SFT) MIMIC-IT | M3IT | Llavar | LRV | Svit ...
- Probamos los conjuntos de datos anteriores para el pretrénmente y el ajuste de instrucciones con OpenFlamingo y Otter. También probamos los conjuntos de datos con IDEFIC y FUYU para el ajuste de instrucciones. Abriremos gradualmente los guiones de entrenamiento.
Interfaz de referencia : Magnifierbench/Mmbench/MM-Vet/MathVista/Pope/MME/Sicenceqa/Seedbench. Ejecutarlos puede tener un solo clic, consulte Benchmark para más detalles.

    datasets :
    - name : magnifierbench
        split : test
        prompt : Answer with the option's letter from the given choices directly.
        api_key : [Your API Key] # GPT4 or GPT3.5 to evaluate the answers and ground truth.
        debug : true # put debug=true will save the model response in log file.
    - name : mme
        split : test
        debug : true
    - name : mmbench
        split : test
        debug : true

    models :
    - name : gpt4v
        api_key : [Your API Key] # to call GPT4V model.

Refactorización de código para organizar múltiples grupos de conjuntos de datos con archivo YAML integrado , consulte los detalles en la administración de conjuntos de datos en formato MIMIC-IT. Por ejemplo,

    IMAGE_TEXT : # Group name should be in [IMAGE_TEXT, TEXT_ONLY, IMAGE_TEXT_IN_CONTEXT]
        LADD : # Dataset name can be assigned at any name you want
            mimicit_path : azure_storage/json/LA/LADD_instructions.json # Path of the instruction json file
            images_path : azure_storage/Parquets/LA.parquet # Path of the image parquet file
            num_samples : -1 # Number of samples you want to use, -1 means use all samples, if not set, default is -1.
        M3IT_CAPTIONING :
            mimicit_path : azure_storage/json/M3IT/captioning/coco/coco_instructions.json
            images_path : azure_storage/Parquets/coco.parquet
            num_samples : 20000

Este es un cambio importante y resultaría en el código anterior que no se ejecuta, verifique los detalles.

[2023-08]

Se agregó soporte para usar modelos Azure, antrópico, Palm, Cohere para autoinstrucciones con Syphus Tipeline, para que la información sobre el uso modifique esta línea con su modelo seleccionado y establezca sus claves API en el entorno. Para más información, consulte Litellm

[2023-07]: Anuncing de datos de datos MIMIC-IT para múltiples ajuste de texto de imagen/video intercalado.

? Vea la comprobación de los conjuntos de datos Huggingface.
? Actualizar la sección de huevos para descargar el conjunto de datos MIMIC-IT.
? Contáctenos si desea desarrollar nutrias para sus escenarios (¿para imágenes satelitales o videos divertidos?). Nuestro objetivo es apoyar y ayudar con los diversos casos de uso de Otter. OpenFlamingo y Otter son modelos fuertes con la arquitectura excelentemente diseñada del Flamingo que acepta múltiples imágenes/videos u otras entradas de modalidad. Vamos a construir modelos más interesantes juntos.

[2023-06]

? Descargue el conjunto de datos MIMIC-IT. Para obtener más detalles sobre la navegación del conjunto de datos, consulte ReadMe del conjunto de datos MIMIC-IT.
? ️ Ejecutar nutria localmente. Puede ejecutar nuestro modelo localmente con al menos 16 g de GPU MEM para tareas como etiquetado de imagen/video y subtítulos e identificando contenido dañino. Se corrigimos un error relacionado con la inferencia de video donde frame tensors fueron sin error a una vision_x incorrecta.
Asegúrese de ajustar el sys.path.append("../..") correctamente para acceder a otter.modeling_otter para iniciar el modelo.
? Consulte nuestro documento que presenta MIMIC-IT en detalle. ¡Conozca Mimic-IT, el primer conjunto de datos de sintonización de instrucciones multimodal en contexto con instrucciones de 2.8m! Desde la comprensión general de la escena hasta detectar diferencias sutiles y mejorar la comprensión de la visión egocéntrica para los auriculares AR, nuestro conjunto de datos MIMIC-IT lo tiene todo.

? ¿Por qué la sintonización de instrucciones en contexto?

Los modelos de idiomas grandes (LLM) han demostrado una aptitud universal excepcional como pocos estudiantes/estudiantes de disparo para numerosas tareas, debido a su pre-entrenamiento en datos de texto extensos. Entre estos LLM, GPT-3 se destaca como un modelo prominente con capacidades significativas. Además, las variantes de GPT-3, a saber, InstructGPT y ChatGPT, han demostrado ser efectivos en la interpretación de instrucciones del lenguaje natural para realizar tareas complejas del mundo real, gracias a la sintonización de instrucciones.

Motivado por el formato interinado aguas arriba previa del modelo del modelo de flamenco, ¿presentamos? Otter, un modelo multimodal basado en OpenFlamingo (la versión de origen abierto de Deepmind's Flamingo). Entrenamos a nuestra nutria en una forma de sintonización de instrucciones en contexto en nuestro conjunto de datos propuesto de MI- M Odal i n- c onText I Nstruction Tuning ( MIMIC-IT ). Otter muestra la capacidad de aprendizaje mejorado de instrucciones y de aprendizaje en contexto tanto en imágenes como en videos.

? Detalles del conjunto de datos MIMIC-IT

Mimic-It permite la aplicación del modelo de asistente visual egocéntrico que puede servir que puede responder a sus preguntas como Hey, ¿crees que dejé mis llaves sobre la mesa? . Aproveche el poder de Mimic-It para desbloquear todo el potencial de su asistente visual impulsado por la IA y elevar sus tareas interactivas en idioma de visión a nuevas alturas.

También presentamos Syphus , una tubería automatizada para generar pares de respuesta de instrucción de alta calidad en múltiples idiomas. Sobre la base del marco propuesto por Llava, utilizamos CHATGPT para generar pares de respuesta de instrucción basados en contenido visual. Para garantizar la calidad de los pares de respuesta de instrucción generados, nuestra tubería incorpora mensajes del sistema, anotaciones visuales y ejemplos en contexto como indicaciones para ChatGPT.

Para obtener más detalles, consulte el conjunto de datos MIMIC-IT.

? Detalles del modelo de nutria

Otter está diseñado para admitir un ajuste de instrucciones multimodal en contexto basado en el modelo OpenFlamingo, que implica acondicionar el modelo de idioma en los medios correspondientes, como una imagen que corresponde a un título o un par de instrucciones-respuesta.

Entrenamos a la nutria en un conjunto de datos MIMIC-IT con aproximadamente 2.8 millones de pares de respuesta de instrucción en contexto, que se estructuran en una plantilla cohesiva para facilitar varias tareas. Otter admite entradas de videos (los marcos se organizan como implementación original de Flamingo) y múltiples entradas de imágenes como ejemplos en contexto, que es el primer modelo sintonizado de instrucciones multimodal .

La siguiente plantilla abarca imágenes, instrucciones del usuario y respuestas generadas por el modelo, utilizando las etiquetas de rol User y GPT para habilitar interacciones asociadas a los usuarios.

 prompt = f"<image>User: { instruction } GPT:<answer> { response } <endofchunk>"

La capacitación del modelo de nutria en el conjunto de datos MIMIC-IT le permite adquirir diferentes capacidades, como lo demuestran las tareas LA y SD. Entrenado en la tarea de LA, el modelo exhibe una comprensión de escena excepcional, habilidades de razonamiento y capacidades de conversación de ronda múltiple.

 # multi-round of conversation
prompt = f"<image>User: { first_instruction } GPT:<answer> { first_response } <endofchunk>User: { second_instruction } GPT:<answer>"

Con respecto al concepto de organizar ejemplos de contexto visual en el contexto, demostramos aquí la capacidad adquirida del modelo nutria para seguir instrucciones intercontextuales después de la capacitación en la tarea LA-T2T. El formato de datos de entrada organizado es el siguiente:

 # Multiple in-context example with similar instructions
prompt = f"<image>User: { ict_first_instruction } GPT: <answer> { ict_first_response } <|endofchunk|><image>User: { ict_second_instruction } GPT: <answer> { ict_second_response } <|endofchunk|><image>User: { query_instruction } GPT: <answer>"

Para obtener más detalles, consulte el Apéndice de nuestro artículo para ver otras tareas.

Entornos

Compare la versión CUDA devuelta por NVIDIA-SMI y NVCC --version. Necesitan coincidir. O al menos, la versión obtiene por NVCC-Version debe ser <= la versión obtenida por NVIDIA-SMI.
Instale el pytorch que coincida con su versión CUDA. (por ejemplo, CUDA 11.7 Torch 2.0.0). Hemos ejecutado con éxito este código en CUDA 11.1 Torch 1.10.1 y CUDA 11.7 Torch 2.0.0. Puede consultar la documentación de Pytorch, más reciente o anterior.
Puede instalar a través de conda env create -f environment.yml . Especialmente para asegurarse de que los transformers>=4.28.0 , accelerate>=0.18.0 .

Después de configurar el entorno, puede usar el? Modelo de flamingo /? ¿Modelo de nutria como A? ¡Abrazando el modelo de cara con solo unas pocas líneas! Un clic y luego las configuraciones/pesas del modelo se descargan automáticamente. Consulte Huggingface Otter/Flamingo para más detalles.

☄️ Entrenamiento

Otter está entrenada en función de OpenFlamingo. Es posible que deba usar pesos convertidos en Luodian/Otter-9b-Init o Luodian/Otter-MPT7B-In. Se convierten respectivamente de OpenFlamingo-llama7b-V1 y OpenFlamingo-MPT7B-V2, agregamos un token <answer> para el ajuste de instrucciones aguas abajo de Otter.

También puede usar cualquier peso de nutria capacitado para comenzar con su entrenamiento sobre el nuestro, verlos en Peso de Otter. Puede consultar MIMIC-IT para preparar archivos de imagen/instrucción/trenes JSON.

 export PYTHONPATH=.
RUN_NAME= " Otter_MPT7B "
GPU=8
WORKERS= $(( ${GPU} * 2 ))

echo " Using ${GPU} GPUs and ${WORKERS} workers "
echo " Running ${RUN_NAME} "

accelerate launch --config_file=./pipeline/accelerate_configs/accelerate_config_zero3.yaml 
    --num_processes= ${GPU} 
    pipeline/train/instruction_following.py 
    --pretrained_model_name_or_path=luodian/OTTER-MPT7B-Init 
    --model_name=otter 
    --instruction_format=simple 
    --training_data_yaml=./shared_scripts/Demo_Data.yaml 
    --batch_size=8 
    --num_epochs=3 
    --report_to_wandb 
    --wandb_entity=ntu-slab 
    --external_save_dir=./checkpoints 
    --run_name= ${RUN_NAME} 
    --wandb_project=Otter_MPTV 
    --workers= ${WORKERS} 
    --lr_scheduler=cosine 
    --learning_rate=2e-5 
    --warmup_steps_ratio=0.01 
    --save_hf_model 
    --max_seq_len=1024

? Citación

Si encontró útil este repositorio, considere citar:

 @article{li2023otter,
  title={Otter: A Multi-Modal Model with In-Context Instruction Tuning},
  author={Li, Bo and Zhang, Yuanhan and Chen, Liangyu and Wang, Jinghao and Yang, Jingkang and Liu, Ziwei},
  journal={arXiv preprint arXiv:2305.03726},
  year={2023}
}

@article{li2023mimicit,
    title={MIMIC-IT: Multi-Modal In-Context Instruction Tuning},
    author={Bo Li and Yuanhan Zhang and Liangyu Chen and Jinghao Wang and Fanyi Pu and Jingkang Yang and Chunyuan Li and Ziwei Liu},
    year={2023},
    eprint={2306.05425},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}