Téléchargement Otter - Téléchargement du code source Otter

Otter

Autre code source

1.0.0

Télécharger

Crédits du projet | Papier Otter | Papier Otterhd | Papier mimic-it

Points de contrôle:

luodian / otter-iMage-Mpt7b
luodian / otter-video-lelama7b-densecaption

Pour qui sur le continent en Chine: |

Avertissement: le code peut ne pas être parfaitement poli et refactorisé, mais tous les codes ouvrir sont testés et exécutables car nous utilisons également le code pour soutenir nos recherches. Si vous avez des questions, n'hésitez pas à ouvrir un problème. Nous attendons avec impatience les suggestions et les PR pour améliorer la qualité du code.

? Mise à jour

[2023-11]: soutenir l'évaluation de GPT4V sur 8 repères; Anounding Otterhd-8b, amélioré de Fuyu-8b. Découvrez Otterhd pour plus de détails.

? Ajout d'Otterhd, un réglage fin multimodal de FuyU-8b pour faciliter les interprétations à grains fins de l'entrée visuelle à haute résolution sans module de codeur de vision explicite . Tous les correctifs d'image sont transformés et traités avec des jetons de texte. Il s'agit d'une exploration très innovante et élégante. Nous sommes fascinés et pavés de cette manière, nous avons ouvert le script Finetune pour Fuyu-8b et amélioré le débit de l'entraînement de 4 à 5 fois plus rapidement avec Flash-Atttention-2. Essayez notre script FineTune à Otterhd.
? Ajout de MagnifierBench, une référence d'évaluation adaptée pour évaluer si le modèle peut identifier les informations des minuscules objets (1% de la taille de l'image) et des relations spatiales.

Pipeline amélioré pour prétraiter | SFT | RLHF avec (partie de) LMMS de tête actuel.

Modèles : Otter | Openflamingo | IDEFICS | Fuyu
Interface de données de formation: (Pretrain) MMC4 | LAION2B | CC3M | CC12M, (SFT) Mimic-it | M3it | Llavar | LRV | Svit ...
- Nous avons testé des ensembles de données ci-dessus pour la pré-formation et le réglage des instructions avec OpenFlamingo et Otter. Nous avons également testé les ensembles de données avec IDEFics et Fuyu pour le réglage des instructions. Nous ouvrirons progressivement les scripts de formation.
Interface de référence : Magnifierbench / mmbench / mm-vet / mathVista / Pope / Mme / Sicenceqa / Seedbench. Les exécuter peuvent être en un clic, veuillez consulter la référence pour plus de détails.

    datasets :
    - name : magnifierbench
        split : test
        prompt : Answer with the option's letter from the given choices directly.
        api_key : [Your API Key] # GPT4 or GPT3.5 to evaluate the answers and ground truth.
        debug : true # put debug=true will save the model response in log file.
    - name : mme
        split : test
        debug : true
    - name : mmbench
        split : test
        debug : true

    models :
    - name : gpt4v
        api_key : [Your API Key] # to call GPT4V model.

Refactorisation de code pour organiser plusieurs groupes de jeux de données avec un fichier YAML intégré , voir les détails dans la gestion des ensembles de données au format Mimic-it. Par exemple,

    IMAGE_TEXT : # Group name should be in [IMAGE_TEXT, TEXT_ONLY, IMAGE_TEXT_IN_CONTEXT]
        LADD : # Dataset name can be assigned at any name you want
            mimicit_path : azure_storage/json/LA/LADD_instructions.json # Path of the instruction json file
            images_path : azure_storage/Parquets/LA.parquet # Path of the image parquet file
            num_samples : -1 # Number of samples you want to use, -1 means use all samples, if not set, default is -1.
        M3IT_CAPTIONING :
            mimicit_path : azure_storage/json/M3IT/captioning/coco/coco_instructions.json
            images_path : azure_storage/Parquets/coco.parquet
            num_samples : 20000

Il s'agit d'un changement majeur et il en résulterait le code précédent non exécutable, veuillez vérifier les détails.

[2023-08]

Ajout de la prise en charge de l'utilisation des modèles Azure, Anthropic, Palm, Cohere pour l'auto-instruction avec Syphus Pipeline, pour que des informations sur l'utilisation modifient cette ligne avec votre modèle sélectionné et définissez vos clés API dans l'environnement. Pour plus d'informations, voir Litellm

[2023-07]: ANNEUNCCING MIMIC-IT DataSet pour plusieurs réglages d'instructions d'image / texte vidéo entrelacés.

? Découvrez Mimic-it sur les ensembles de données HuggingFace.
? Mettez à jour la section des œufs pour télécharger un jeu de données Mimic-it.
? Contactez-nous si vous souhaitez développer Otter pour vos scénarios (pour des images satellites ou des vidéos drôles?). Nous visons à soutenir et à aider dans les divers cas d'utilisation d'Otter. OpenFlamingo et Otter sont des modèles solides avec l'architecture très conçue du Flamingo qui accepte plusieurs images / vidéos ou autres entrées de modalité. Construisons ensemble des modèles plus intéressants.

[2023-06]

? Téléchargez un ensemble de données Mimic-it. Pour plus de détails sur la navigation dans l'ensemble de données, veuillez vous référer à Mimic-it Dataset Readme.
? ️ Exécutez la loutre localement. Vous pouvez exécuter notre modèle localement avec au moins 16 g MEM GPU pour des tâches telles que le balisage d'image / vidéo et le sous-titrage et l'identification du contenu nocif. Nous corrigeons un bogue lié à l'inférence vidéo où frame tensors n'étaient pas à tort à une mauvaise vision_x .
Assurez-vous d'ajuster correctement le sys.path.append("../..") pour accéder à otter.modeling_otter afin de lancer le modèle.
? Vérifiez notre article en introduisant Mimic-it en détail. Rencontrez Mimic-it, le premier ensemble de données de réglage d'instructions multimodal dans le contexte avec des instructions de 2,8 m! De la compréhension générale de la scène à la repérer des différences subtiles et à l'amélioration de la compréhension de la vue égocentrique pour les casques AR, notre ensemble de données Mimic-IT a tout.

? Pourquoi le réglage des instructions en contexte?

Les modèles de grands langues (LLM) ont démontré une aptitude universelle exceptionnelle en tant qu'apprenants peu / zéro-tirs pour de nombreuses tâches, en raison de leur pré-formation sur des données de texte étendues. Parmi ces LLM, GPT-3 se démarque comme un modèle proéminent avec des capacités importantes. De plus, les variantes de GPT-3, à savoir InstructGpt et Chatgpt, se sont révélées efficaces pour interpréter des instructions en langage naturel pour effectuer des tâches complexes du monde réel, grâce au réglage des instructions.

Motivé par le format entrelacé en amont pré-entraînement du modèle Flamingo, nous présentons-nous? Otter, un modèle multimodal basé sur OpenFlamingo (la version open source du flamanto de DeepMind). Nous formons notre loutre dans une manière de réglage des instructions dans le contexte sur notre jeu de données ( Mimic -it ). Otter présente une amélioration de la capacité d'apprentissage de suivi des instructions et de contexte dans les images et les vidéos.

? Détails de l'ensemble de données Mimic-it

Mimic-it permet l'application d'un modèle d'assistant visuel égocentrique qui peut servir qui peut répondre à vos questions comme Hey, pensez-vous avoir laissé mes clés sur la table? . Exploitez la puissance de Mimic-it pour débloquer tout le potentiel de votre assistant visuel axé sur l'IA et élever vos tâches interactives en langue visuelle vers de nouveaux sommets.

Nous introduisons également Syphus , un pipeline automatisé pour générer des paires d'instruction-réponse de haute qualité dans plusieurs langues. S'appuyant sur le cadre proposé par Llava, nous utilisons ChatGpt pour générer des paires d'instruction-réponse basées sur le contenu visuel. Pour garantir la qualité des paires d'instructions-réponse générées, notre pipeline intègre des messages système, des annotations visuelles et des exemples dans le contexte en tant qu'invites pour Chatgpt.

Pour plus de détails, veuillez consulter l'ensemble de données Mimic-it.

? Détails du modèle Otter

Otter est conçu pour prendre en charge le réglage d'instructions multimodal dans le contexte basé sur le modèle OpenFlamingo, qui implique de conditionner le modèle de langue sur le support correspondant, comme une image qui correspond à une légende ou à une paire d'instructions-réponse.

Nous formons Otter sur un ensemble de données Mimic-it avec environ 2,8 millions de paires d'instructions-réponse en contexte, qui sont structurées en un modèle cohérente pour faciliter diverses tâches. Otter prend en charge les entrées de vidéos (les trames sont organisées en tant qu'implémentation de Flamingo d'origine) et plusieurs entrées d'images comme exemples dans le contexte, qui est le premier modèle réglé d'instructions multimodal .

Le modèle suivant comprend des images, des instructions de l'utilisateur et des réponses générées par le modèle, en utilisant les étiquettes de rôle User et GPT pour permettre des interactions assocantes-utilisateur.

 prompt = f"<image>User: { instruction } GPT:<answer> { response } <endofchunk>"

La formation du modèle Otter sur l'ensemble de données Mimic-IT lui permet d'acquérir différentes capacités, comme le montrent les tâches LA et SD. Formé sur la tâche de LA, le modèle présente une compréhension exceptionnelle des scènes, des capacités de raisonnement et des capacités de conversation multi-rondes.

 # multi-round of conversation
prompt = f"<image>User: { first_instruction } GPT:<answer> { first_response } <endofchunk>User: { second_instruction } GPT:<answer>"

En ce qui concerne le concept d'organisation des exemples en langage visuel en contexte, nous démontrons ici la capacité acquise du modèle Otter à suivre les instructions inter-contextuelles après une formation sur la tâche LA-T2T. Le format de données d'entrée organisé est le suivant:

 # Multiple in-context example with similar instructions
prompt = f"<image>User: { ict_first_instruction } GPT: <answer> { ict_first_response } <|endofchunk|><image>User: { ict_second_instruction } GPT: <answer> { ict_second_response } <|endofchunk|><image>User: { query_instruction } GPT: <answer>"

Pour plus de détails, veuillez vous référer à l'annexe de notre article pour d'autres tâches.

Environnements

Comparez la version CUDA renvoyée par NVIDIA-SMI et NVCC --version. Ils doivent correspondre. Ou du moins, la version Get By NVCC - Version devrait être <= la version Get By NVIDIA-SMI.
Installez le pytorch qui correspond à votre version CUDA. (par exemple Cuda 11.7 Torch 2.0.0). Nous avons réussi ce code sur CUDA 11.1 Torch 1.10.1 et CUDA 11.7 Torch 2.0.0. Vous pouvez vous référer à la documentation de Pytorch, la dernière ou la précédente.
Vous pouvez installer via conda env create -f environment.yml . Surtout pour vous assurer que les transformers>=4.28.0 , accelerate>=0.18.0 .

Après avoir configuré l'environnement, vous pouvez utiliser le? Modèle Flamingo /? Otter Model en tant que? Modèle de visage étreint avec seulement quelques lignes! Les configurations / poids des modèles en un clic, puis les modèles sont téléchargés automatiquement. Veuillez vous référer à HuggingFace Otter / Flamingo pour plus de détails.

☄️ Formation

Otter est formé sur la base d'OpenFlamingo. Vous devrez peut-être utiliser des poids convertis à Luodian / Otter-9B-INT ou Luodian / Otter-Mpt7b-Init. Ils sont respectivement convertis à partir d'OpenFlamingo-Lama7b-V1 et d'OpenFlamingo-Mpt7b-V2, nous avons ajouté un jeton <answer> pour le réglage des instructions en aval d'Otter.

Vous pouvez également utiliser tous les poids de loutre formés pour commencer avec votre formation au-dessus de la nôtre, les voir à Otter Weights. Vous pouvez vous référer à Mimic-it pour préparer des fichiers Image / Instruction / Train JSON.

 export PYTHONPATH=.
RUN_NAME= " Otter_MPT7B "
GPU=8
WORKERS= $(( ${GPU} * 2 ))

echo " Using ${GPU} GPUs and ${WORKERS} workers "
echo " Running ${RUN_NAME} "

accelerate launch --config_file=./pipeline/accelerate_configs/accelerate_config_zero3.yaml 
    --num_processes= ${GPU} 
    pipeline/train/instruction_following.py 
    --pretrained_model_name_or_path=luodian/OTTER-MPT7B-Init 
    --model_name=otter 
    --instruction_format=simple 
    --training_data_yaml=./shared_scripts/Demo_Data.yaml 
    --batch_size=8 
    --num_epochs=3 
    --report_to_wandb 
    --wandb_entity=ntu-slab 
    --external_save_dir=./checkpoints 
    --run_name= ${RUN_NAME} 
    --wandb_project=Otter_MPTV 
    --workers= ${WORKERS} 
    --lr_scheduler=cosine 
    --learning_rate=2e-5 
    --warmup_steps_ratio=0.01 
    --save_hf_model 
    --max_seq_len=1024

? Citation

Si vous avez trouvé ce référentiel utile, veuillez envisager de citer:

 @article{li2023otter,
  title={Otter: A Multi-Modal Model with In-Context Instruction Tuning},
  author={Li, Bo and Zhang, Yuanhan and Chen, Liangyu and Wang, Jinghao and Yang, Jingkang and Liu, Ziwei},
  journal={arXiv preprint arXiv:2305.03726},
  year={2023}
}

@article{li2023mimicit,
    title={MIMIC-IT: Multi-Modal In-Context Instruction Tuning},
    author={Bo Li and Yuanhan Zhang and Liangyu Chen and Jinghao Wang and Fanyi Pu and Jingkang Yang and Chunyuan Li and Ziwei Liu},
    year={2023},
    eprint={2306.05425},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}

? ‍? Remerciements

Nous remercions Jack Hessel pour les conseils et le soutien, ainsi que l'équipe Openflamingo pour leur grande contribution à la communauté open source.

Énormes distinctions à l'équipe Flamingo et Openflamingo pour le travail sur cette grande architecture.