Dieses Repository enthält Code zum Ausführen von Vision-Aufgaben mithilfe des lokalen LLM Phi-3 Vision-Modells und der Hugging Face-Bibliothek. Der Code zeigt, wie eine Antwort basierend auf einem Eingabebild und einer benutzerdefinierten Eingabeaufforderung generiert wird.
transformers
-Bibliothek von Hugging Face Um dieses Projekt auszuführen, benötigen Sie Python und die erforderlichen Abhängigkeiten. Führen Sie die folgenden Schritte aus, um Ihre Umgebung einzurichten.
Git-Klon https://github.com/manunair1990/Phi3-Vision-huggingface
cd Phi3-Vision-umarmendes Gesicht
Installieren Sie die erforderlichen Python-Pakete mit pip.
pip install -r Anforderungen.txt
Python phi3_vision_huggingface.py
Hinweise Um eine URL anstelle einer lokalen Bilddatei zu verwenden, kommentieren Sie die entsprechenden Zeilen aus und ersetzen Sie die URL durch Ihre gewünschte Bild-URL.
Hugging Face für die Bereitstellung der Modell- und Tokenizer-APIs.
Die Schöpfer des Phi-3 Vision-Modells.