Ce référentiel contient du code pour effectuer des tâches de vision à l'aide du modèle local LLM Phi-3 Vision et de la bibliothèque Hugging Face. Le code montre comment générer une réponse basée sur une image d'entrée et une invite définie par l'utilisateur.
transformers
de Hugging Face Pour exécuter ce projet, vous aurez besoin de Python et des dépendances nécessaires. Suivez les étapes ci-dessous pour configurer votre environnement.
clone git https://github.com/manunair1990/Phi3-Vision-huggingface
cd Phi3-Vision-huggingface
Installez les packages Python requis à l'aide de pip.
pip install -r exigences.txt
python phi3_vision_huggingface.py
Notes Pour utiliser une URL au lieu d'un fichier image local, décommentez les lignes pertinentes et remplacez l'URL par l'URL de votre image souhaitée.
Hugging Face pour avoir fourni les API de modèle et de tokenizer.
Les créateurs du modèle Phi-3 Vision.