Ejemplo:
Título generado: un caballo negro corriendo por un campo de hierba
Este repositorio contiene un proyecto que explora la tarea de subtitular imágenes utilizando Vision Transformers (ViTs). El proyecto tiene como objetivo generar leyendas descriptivas para imágenes combinando el poder de Transformers y la visión por computadora. Aprovecha modelos ViT previamente entrenados de última generación y emplea técnicas como mecanismos de atención y modelado del lenguaje para generar subtítulos precisos y contextualmente relevantes.
Enlace del artículo: https://www.analyticsvidhya.com/blog/2023/06/vision-transformers/
Los subtítulos de imágenes son un problema desafiante que implica generar descripciones de imágenes similares a las humanas. Al utilizar Vision Transformers, este proyecto tiene como objetivo lograr una mejor comprensión de la imagen y generación de subtítulos. La combinación de visión por computadora y Transformers ha mostrado resultados prometedores en diversas tareas de procesamiento del lenguaje natural, y este proyecto explora su aplicación a los subtítulos de imágenes.
Puede encontrar más detalles sobre cómo utilicé Litserve para crear un servidor de subtítulos de imágenes aquí: Litserve.
El conjunto de datos utilizado para este proyecto consta de datos de imagen y título emparejados. Cada imagen está asociada con uno o más títulos descriptivos. El conjunto de datos no está incluido en este repositorio, pero puede encontrar conjuntos de datos de subtítulos de imágenes populares, como MS COCO, Flickr30k o Conceptual Captions, para experimentar.
Puede encontrar el cuaderno sobre el ajuste fino de su propio conjunto de datos en el directorio de ajuste fino: aquí
Para utilizar el código de este repositorio, siga estos pasos:
git clone https://github.com/your-username/image-captioning-vision-transformers.git
cd image-captioning-vision-transformers
pip install -r requirements.txt
En este proyecto se emplean los siguientes métodos y técnicas:
El proyecto está implementado en Python y utiliza las siguientes bibliotecas:
Las contribuciones a este proyecto son bienvenidas. Para contribuir, siga estos pasos:
git checkout -b feature/your-feature
git commit -m 'Add some feature'
git push origin feature/your-feature
Este proyecto está bajo la licencia MIT.
Enlace al blog: https://www.analyticsvidhya.com/blog/2023/06/vision-transformers/
Síguenos para más proyectos interesantes.