Download Otter - download de código fonte Otter

Otter

Outro código-fonte

1.0.0

Baixar

Créditos do projeto | Papel de lontra | Papel otterhd | Papel imitador

Pontos de verificação:

Luodian/Otter-Image-Mpt7b
Luodian/Otter-video-lama7b-Densection

Para quem na China continental: |

Isenção de responsabilidade: o código pode não ser perfeitamente polido e refaturado, mas todos os códigos de excesso de abertura são testados e executáveis , pois também usamos o código para apoiar nossa pesquisa. Se você tiver alguma dúvida, não hesite em abrir um problema. Estamos ansiosos por sugestões e PRs para melhorar a qualidade do código.

? Atualizar

[2023-11]: Apoia a avaliação do GPT4V em 8 benchmarks; ANOUNCING OTTERHD-8B, melhorado de Fuyu-8b. Confira otterHD para obter detalhes.

? Adicionado otterHD, um ajuste fino multimodal do Fuyu-8b para facilitar interpretações de granulação fina de entrada visual de alta resolução sem um módulo de codificador de visão explícito . Todos os patches de imagem são transformados lineares e processados juntamente com tokens de texto. Esta é uma exploração muito inovadora e elegante. Somos fascinados e pavimentados dessa maneira, abrimos o script FineTune para Fuyu-8b e melhoramos a taxa de transferência de treinamento em 4-5 vezes mais rápida com a atitude flash-2. Experimente nosso script Finetune em OtterHD.
? Adicionado Magnifierbench, uma referência de avaliação adaptada para avaliar se o modelo pode identificar as informações dos pequenos objetos (tamanho de imagem de 1%) e relações espaciais.

Oleoduto aprimorado para pré -extrair | Sft | RLHF com (parte do) LMMS líder atual.

Modelos : lontra | OpenFlamingo | Idefics | Fuyu
Interface dos conjuntos de dados de treinamento: (pré -train) mmc4 | Laion2b | Cc3m | CC12M, (SFT) MIMIC-IT | M3it | Llavar | LRV | Svit ...
- Testamos os conjuntos de dados acima para o ajuste de pré -treinamento e instruções com o OpenFlamingo e Otter. Também testamos os conjuntos de dados com Idefics e Fuyu para ajustar as instruções. Abertaremos gradualmente os scripts de treinamento.
Interface de benchmark : Magnifierbench/mmbench/mm-vet/mathvista/papa/mme/sicenceqa/semente de semente. Execute-os pode estar em um clique, consulte a referência para obter detalhes.

    datasets :
    - name : magnifierbench
        split : test
        prompt : Answer with the option's letter from the given choices directly.
        api_key : [Your API Key] # GPT4 or GPT3.5 to evaluate the answers and ground truth.
        debug : true # put debug=true will save the model response in log file.
    - name : mme
        split : test
        debug : true
    - name : mmbench
        split : test
        debug : true

    models :
    - name : gpt4v
        api_key : [Your API Key] # to call GPT4V model.

Refatorização do código para organizar vários grupos de conjuntos de dados com o arquivo YAML integrado , consulte Detalhes no gerenciamento de conjuntos de dados em formato Mimic-it. Por exemplo,

    IMAGE_TEXT : # Group name should be in [IMAGE_TEXT, TEXT_ONLY, IMAGE_TEXT_IN_CONTEXT]
        LADD : # Dataset name can be assigned at any name you want
            mimicit_path : azure_storage/json/LA/LADD_instructions.json # Path of the instruction json file
            images_path : azure_storage/Parquets/LA.parquet # Path of the image parquet file
            num_samples : -1 # Number of samples you want to use, -1 means use all samples, if not set, default is -1.
        M3IT_CAPTIONING :
            mimicit_path : azure_storage/json/M3IT/captioning/coco/coco_instructions.json
            images_path : azure_storage/Parquets/coco.parquet
            num_samples : 20000

Esta é uma mudança importante e resultaria em código anterior não executável, verifique os detalhes.

[2023-08]

Adicionado suporte ao uso de modelos Azure, Antrópico, Palm e Coere para auto-estrutura com o oleoduto Syphus, para obter informações sobre o uso, modifique essa linha com o modelo selecionado e defina suas teclas de API no ambiente. Para mais informações, consulte Litellm

[2023-07]: DATASET ANOUNCING MIMIC-IT para múltiplos ajustes de instrução de imagem/vídeo intercalados.

? Checkout imitic-it em conjuntos de dados HuggingFace.
? Atualize a seção Eggs para baixar o conjunto de dados Mimic-it.
? Entre em contato conosco se desejar desenvolver lontra para seus cenários (para imagens de satélite ou vídeos engraçados?). Nosso objetivo é apoiar e ajudar nos diversos casos de uso da Otter. OpenFlamingo e Otter são modelos fortes com a arquitetura excelentemente projetada do Flamingo que aceita várias imagens/vídeos ou outras entradas de modalidade. Vamos construir modelos mais interessantes juntos.

[2023-06]

? Baixe o conjunto de dados Mimic-it. Para obter mais detalhes sobre como navegar no conjunto de dados, consulte o Mimic-It DataSet ReadMe.
? Aste Executar lontra localmente. Você pode executar nosso modelo localmente com pelo menos 16g de MEM de GPU para tarefas como etiqueta de imagem/vídeo e legenda e identificação de conteúdo prejudicial. Corrigimos um bug relacionado à inferência de vídeo em que frame tensors foram incapazes de não procurar uma vision_x errada.
Certifique -se de ajustar o sys.path.append("../..") corretamente para acessar otter.modeling_otter para iniciar o modelo.
? Verifique nosso artigo que apresenta o Mimic-it em detalhes. Conheça o Mimic-It, o primeiro conjunto de dados multimodal de ajuste de instrução em contexto com instruções de 2,8 milhões! Do entendimento da cena geral às diferenças sutis e ao aprimoramento da compreensão da visão egocêntrica para os fones de ouvido de AR, nosso conjunto de dados imita-o conjunto de dados tem tudo.

? Por que o ajuste da instrução no contexto?

Os grandes modelos de idiomas (LLMs) demonstraram aptidão universal excepcional, pois poucos alunos/tiro zero para inúmeras tarefas, devido ao pré-treinamento em extensos dados de texto. Entre esses LLMs, o GPT-3 se destaca como um modelo de destaque com capacidades significativas. Além disso, as variantes do GPT-3, nomeadamente InstructGPT e ChatGPT, se mostraram eficazes na interpretação das instruções de linguagem natural para executar tarefas complexas do mundo real, graças ao ajuste de instrução.

Motivado pelo formato intercalado a montante do modelo flamingo, apresentamos? Otter, um modelo multimodal baseado no OpenFlamingo (a versão de código aberto do Flamingo de DeepMind). Treinamos nossa lontra de forma de instrução no Contexto em nosso conjunto de dados proposto de unidade ( MIMIC - IT ) . A OTTER mostra a capacidade de aprender de seguidores e de contexto melhorada em imagens e vídeos.

? Detalhes do conjunto de dados imitadores

O Mimic-It permite a aplicação do modelo de assistente visual egocêntrico que pode servir que pode responder a suas perguntas como ei, você acha que eu deixei minhas chaves na mesa? . Aproveite o poder de Mimic-It para desbloquear todo o potencial do seu assistente visual acionado por IA e elevar suas tarefas interativas de linguagem de visão a novas alturas.

Também introduzimos Syphus , um pipeline automatizado para gerar pares de resposta-resposta de alta qualidade em vários idiomas. Com base na estrutura proposta pela LLAVA, utilizamos o ChatGPT para gerar pares de resposta-resposta com base no conteúdo visual. Para garantir a qualidade dos pares gerados de resposta de instrução, nosso pipeline incorpora mensagens do sistema, anotações visuais e exemplos de contexto como solicitantes para o ChatGPT.

Para mais detalhes, consulte o conjunto de dados Mimic-it.

? Detalhes do modelo de lontras

A OTTER foi projetada para suportar o ajuste de instruções em contexto multimodal com base no modelo OpenFlamingo, que envolve condicionar o modelo de idioma na mídia correspondente, como uma imagem que corresponde a uma legenda ou um par de resposta-resposta.

Treinamos lontras no conjunto de dados MIMIC-IT com aproximadamente 2,8 milhões de pares de resposta de instrução no contexto, que são estruturados em um modelo coesivo para facilitar várias tarefas. A OTTER suporta entradas de vídeos (os quadros são organizados como implementação do Flamingo original) e várias entradas de imagens como exemplos de contexto, que é o primeiro modelo sintonizado de instrução multimodal .

O modelo a seguir abrange imagens, instruções do usuário e respostas geradas por modelos, utilizando os rótulos de função User e GPT para ativar interações perfeitas e assistentes do usuário.

 prompt = f"<image>User: { instruction } GPT:<answer> { response } <endofchunk>"

Treinar o modelo de lontra no conjunto de dados MIMIC-IT permite adquirir diferentes capacidades, como demonstrado pelas tarefas LA e SD. Treinado na tarefa de LA, o modelo exibe excepcional compreensão de cenas, habilidades de raciocínio e recursos de conversação de várias rodadas.

 # multi-round of conversation
prompt = f"<image>User: { first_instruction } GPT:<answer> { first_response } <endofchunk>User: { second_instruction } GPT:<answer>"

Em relação ao conceito de organizar exemplos de contexto em linguagem visual, demonstramos aqui a capacidade adquirida do modelo de lontra de seguir instruções inter-contextuais após o treinamento da tarefa LA-T2T. O formato de dados de entrada organizado é o seguinte:

 # Multiple in-context example with similar instructions
prompt = f"<image>User: { ict_first_instruction } GPT: <answer> { ict_first_response } <|endofchunk|><image>User: { ict_second_instruction } GPT: <answer> { ict_second_response } <|endofchunk|><image>User: { query_instruction } GPT: <answer>"

Para mais detalhes, consulte o apêndice do nosso artigo para outras tarefas.

Ambientes

Compare a versão CUDA retornada por NVIDIA-SMI e NVCC --version. Eles precisam combinar. Ou pelo menos, a versão é obtida pelo NVCC --version deve ser <= a versão obtida por nvidia-smi.
Instale o pytorch que corresponde à sua versão CUDA. (por exemplo, Cuda 11.7 Torch 2.0.0). Executamos com sucesso esse código no CUDA 11.1 Torch 1.10.1 e CUDA 11.7 Torch 2.0.0. Você pode se referir à documentação de Pytorch, mais recente ou anterior.
Você pode instalar via conda env create -f environment.yml . Especialmente para garantir que os transformers>=4.28.0 , accelerate>=0.18.0 .

Depois de configurar o ambiente, você pode usar o? Modelo flamingo /? Modelo de lontra como um? Abraçando o modelo de rosto com apenas algumas linhas! As configurações/pesos com um clique e depois o modelo são baixados automaticamente. Consulte o HuggingFace Otter/Flamingo para obter detalhes.

☄️ Treinamento

A OTTER é treinada com base no OpenFlamingo. Pode ser necessário usar pesos convertidos no Luodian/OTTER-9B-Init ou Luodian/Otter-Mpt7b-Init. Eles são convertidos respectivamente do OpenFlamingo-llama7B-V1 e do OpenFlamingo-Mpt7b-V2, adicionamos um token <answer> para o ajuste de instrução a jusante da Otter.

Você também pode usar quaisquer pesos de lontra treinados para começar com o seu treinamento em cima, veja -os com pesos de lontra. Você pode se referir ao Mimic-It para preparar arquivos JSON de imagem/instrução/trem.

 export PYTHONPATH=.
RUN_NAME= " Otter_MPT7B "
GPU=8
WORKERS= $(( ${GPU} * 2 ))

echo " Using ${GPU} GPUs and ${WORKERS} workers "
echo " Running ${RUN_NAME} "

accelerate launch --config_file=./pipeline/accelerate_configs/accelerate_config_zero3.yaml 
    --num_processes= ${GPU} 
    pipeline/train/instruction_following.py 
    --pretrained_model_name_or_path=luodian/OTTER-MPT7B-Init 
    --model_name=otter 
    --instruction_format=simple 
    --training_data_yaml=./shared_scripts/Demo_Data.yaml 
    --batch_size=8 
    --num_epochs=3 
    --report_to_wandb 
    --wandb_entity=ntu-slab 
    --external_save_dir=./checkpoints 
    --run_name= ${RUN_NAME} 
    --wandb_project=Otter_MPTV 
    --workers= ${WORKERS} 
    --lr_scheduler=cosine 
    --learning_rate=2e-5 
    --warmup_steps_ratio=0.01 
    --save_hf_model 
    --max_seq_len=1024

? Citação

Se você achou esse repositório útil, considere citar:

 @article{li2023otter,
  title={Otter: A Multi-Modal Model with In-Context Instruction Tuning},
  author={Li, Bo and Zhang, Yuanhan and Chen, Liangyu and Wang, Jinghao and Yang, Jingkang and Liu, Ziwei},
  journal={arXiv preprint arXiv:2305.03726},
  year={2023}
}

@article{li2023mimicit,
    title={MIMIC-IT: Multi-Modal In-Context Instruction Tuning},
    author={Bo Li and Yuanhan Zhang and Liangyu Chen and Jinghao Wang and Fanyi Pu and Jingkang Yang and Chunyuan Li and Ziwei Liu},
    year={2023},
    eprint={2306.05425},
    archivePrefix={arXiv},
    primaryClass={cs.CV}
}