Этот репозиторий содержит код для выполнения задач машинного зрения с использованием локальной модели LLM Phi-3 Vision и библиотеки Hugging Face. Код демонстрирует, как сгенерировать ответ на основе входного изображения и пользовательского приглашения.
transformers
Hugging Face. Для запуска этого проекта вам понадобится Python и необходимые зависимости. Выполните следующие действия, чтобы настроить среду.
git-клон https://github.com/manunair1990/Phi3-Vision-huggingface
компакт-диск Phi3-Vision-huggingface
Установите необходимые пакеты Python с помощью pip.
pip install -r требования.txt
python phi3_vision_huggingface.py
Примечания. Чтобы использовать URL-адрес вместо локального файла изображения, раскомментируйте соответствующие строки и замените URL-адрес желаемым URL-адресом изображения.
Hugging Face за предоставление API модели и токенизатора.
Создатели модели Phi-3 Vision.