Exemple:
Légende générée : un cheval noir courant dans un champ herbeux
Ce référentiel contient un projet qui explore la tâche de sous-titrage d'images à l'aide de Vision Transformers (ViTs). Le projet vise à générer des légendes descriptives pour les images en combinant la puissance des Transformers et de la vision par ordinateur. Il exploite des modèles ViT pré-entraînés de pointe et utilise des techniques telles que les mécanismes d'attention et la modélisation du langage pour générer des sous-titres précis et contextuellement pertinents.
Lien de l'article : https://www.analyticsvidhya.com/blog/2023/06/vision-transformers/
Le sous-titrage d’images est un problème difficile qui implique de générer des descriptions d’images de type humain. En utilisant Vision Transformers, ce projet vise à améliorer la compréhension des images et la génération de légendes. La combinaison de la vision par ordinateur et de Transformers a donné des résultats prometteurs dans diverses tâches de traitement du langage naturel, et ce projet explore leur application au sous-titrage d'images.
Vous pouvez trouver plus de détails sur la façon dont j'ai utilisé Litserve pour gérer la création d'un serveur de sous-titrage d'images ici : Litserve .
L'ensemble de données utilisé pour ce projet est constitué de données appariées image-légende. Chaque image est associée à une ou plusieurs légendes descriptives. L'ensemble de données n'est pas inclus dans ce référentiel, mais vous pouvez trouver des ensembles de données de sous-titres d'images populaires tels que MS COCO, Flickr30k ou Conceptual Captions à des fins d'expérimentation.
Vous pouvez trouver le notebook sur le réglage fin de votre propre ensemble de données dans le répertoire de réglage fin : ici
Pour utiliser le code dans ce référentiel, procédez comme suit :
git clone https://github.com/your-username/image-captioning-vision-transformers.git
cd image-captioning-vision-transformers
pip install -r requirements.txt
Les méthodes et techniques suivantes sont utilisées dans ce projet :
Le projet est implémenté en Python et utilise les bibliothèques suivantes :
Les contributions à ce projet sont les bienvenues. Pour contribuer, suivez ces étapes :
git checkout -b feature/your-feature
git commit -m 'Add some feature'
git push origin feature/your-feature
Ce projet est sous licence MIT.
Lien vers le blog : https://www.analyticsvidhya.com/blog/2023/06/vision-transformers/
Suivez pour des projets plus intéressants