Este repositório contém código para executar tarefas de visão usando o modelo LLM Phi-3 Vision local e a biblioteca Hugging Face. O código demonstra como gerar uma resposta com base em uma imagem de entrada e em um prompt definido pelo usuário.
transformers
do Hugging Face Para executar este projeto, você precisará do Python e das dependências necessárias. Siga as etapas abaixo para configurar seu ambiente.
clone git https://github.com/manunair1990/Phi3-Vision-huggingface
cd Phi3-Vision-huggingface
Instale os pacotes Python necessários usando pip.
pip instalar -r requisitos.txt
python phi3_vision_huggingface.py
Notas Para usar um URL em vez de um arquivo de imagem local, remova o comentário das linhas relevantes e substitua o URL pelo URL da imagem desejada.
Hugging Face por fornecer as APIs do modelo e do tokenizador.
Os criadores do modelo Phi-3 Vision.