Este repositorio contiene código para realizar tareas de visión utilizando el modelo local LLM Phi-3 Vision y la biblioteca Hugging Face. El código demuestra cómo generar una respuesta basada en una imagen de entrada y un mensaje definido por el usuario.
transformers
de Hugging Face Para ejecutar este proyecto, necesitará Python y las dependencias necesarias. Siga los pasos a continuación para configurar su entorno.
clon de git https://github.com/manunair1990/Phi3-Vision-huggingface
cd Phi3-Vision-huggingface
Instale los paquetes de Python necesarios usando pip.
instalación de pip -r requisitos.txt
Python phi3_vision_huggingface.py
Notas Para utilizar una URL en lugar de un archivo de imagen local, descomente las líneas relevantes y reemplace la URL con la URL de la imagen que desee.
Hugging Face por proporcionar las API del modelo y del tokenizador.
Los creadores del modelo Phi-3 Vision.