Repositori ini berisi kode untuk melakukan tugas penglihatan menggunakan model LLM Phi-3 Vision lokal dan perpustakaan Hugging Face. Kode ini mendemonstrasikan cara menghasilkan respons berdasarkan gambar masukan dan perintah yang ditentukan pengguna.
transformers
Hugging Face Untuk menjalankan proyek ini, Anda memerlukan Python dan dependensi yang diperlukan. Ikuti langkah-langkah di bawah ini untuk menyiapkan lingkungan Anda.
git clone https://github.com/manunair1990/Phi3-Vision-huggingface
cd Phi3-Vision-memeluk wajah
Instal paket Python yang diperlukan menggunakan pip.
instalasi pip -r persyaratan.txt
python phi3_vision_huggingface.py
Catatan Untuk menggunakan URL dan bukan file gambar lokal, batalkan komentar pada baris yang relevan dan ganti URL dengan URL gambar yang Anda inginkan.
Memeluk Wajah untuk menyediakan API model dan tokenizer.
Pencipta model Phi-3 Vision.