Exemplo:
Legenda gerada: um cavalo preto correndo por um campo gramado
Este repositório contém um projeto que explora a tarefa de legendagem de imagens usando Vision Transformers (ViTs). O projeto visa gerar legendas descritivas para imagens combinando o poder dos Transformers e da visão computacional. Ele aproveita modelos ViT pré-treinados de última geração e emprega técnicas como mecanismos de atenção e modelagem de linguagem para gerar legendas precisas e contextualmente relevantes.
Link do artigo: https://www.analyticsvidhya.com/blog/2023/06/vision-transformers/
A legendagem de imagens é um problema desafiador que envolve a geração de descrições humanas para imagens. Ao utilizar Vision Transformers, este projeto visa melhorar a compreensão da imagem e a geração de legendas. A combinação de visão computacional e Transformers tem mostrado resultados promissores em diversas tarefas de processamento de linguagem natural, e este projeto explora sua aplicação à legendagem de imagens.
Você pode encontrar mais detalhes sobre como usei o Litserve para criar um servidor de legendagem de imagens aqui: Litserve.
O conjunto de dados usado para este projeto consiste em dados de legenda de imagem emparelhados. Cada imagem está associada a uma ou mais legendas descritivas. O conjunto de dados não está incluído neste repositório, mas você pode encontrar conjuntos de dados populares de legendas de imagens, como MS COCO, Flickr30k ou Conceptual Captions para experimentação.
Você pode encontrar o notebook sobre ajuste fino em seu próprio conjunto de dados no diretório de ajuste fino: aqui
Para usar o código neste repositório, siga estas etapas:
git clone https://github.com/your-username/image-captioning-vision-transformers.git
cd image-captioning-vision-transformers
pip install -r requirements.txt
Os seguintes métodos e técnicas são empregados neste projeto:
O projeto é implementado em Python e utiliza as seguintes bibliotecas:
Contribuições para este projeto são bem-vindas. Para contribuir, siga estes passos:
git checkout -b feature/your-feature
git commit -m 'Add some feature'
git push origin feature/your-feature
Este projeto está licenciado sob a licença MIT.
Link para o blog: https://www.analyticsvidhya.com/blog/2023/06/vision-transformers/
Siga para projetos mais interessantes