LoRA-Bereitstellung
Dieses Repository zeigt, wie mehrere LoRA-fein abgestimmte stabile Diffusionen von ? bereitgestellt werden. Diffusorbibliothek auf dem Hugging Face Inference Endpoint. Da nach der Feinabstimmung mit LoRA nur wenige ~ MB an Prüfpunkten erzeugt werden, können wir verschiedene Prüfpunkte für unterschiedliche feinabgestimmte stabile Diffusionen auf superschnelle, speichereffiziente und speicherplatzeffiziente Weise wechseln.
Zu Demonstrationszwecken habe ich die folgenden Hugging Face Model-Repositories getestet, die über einen LoRA-feinabgestimmten Prüfpunkt ( pytorch_lora_weights.bin
) verfügen:
- ethan_ai
- Noto-Emoji
- Pokémon
Notizbuch
- Pilotnotizbuch: Zeigt, wie man einen benutzerdefinierten Handler für Hugging Face Inference Endpoint in lokalen oder Colab-Umgebungen schreibt und testet
- Inferenznotizbuch: Zeigt, wie eine Inferenz für den benutzerdefinierten Handler angefordert wird, der auf Hugging Face Inference Endopint bereitgestellt wird
- Inferenznotizbuch für mehrere Mitarbeiter: Zeigt, wie gleichzeitige Anforderungen an den benutzerdefinierten Handler ausgeführt werden, der auf dem Hugging Face Inference Endpoint in der Colab-Umgebung bereitgestellt wird
Benutzerdefinierter Handler
- handler.py: Basishandler. Dieser benutzerdefinierte Handler funktioniert nachweislich mit diesem Hugging Face Model-Repo
- multiworker_handler.py: Erweiterter Handler mit mehreren Worker-Pools (stabile Diffusion). Dieser benutzerdefinierte Handler funktioniert nachweislich mit diesem Hugging Face Model-Repo
Skript
- inference.py: eigenständiges Python-Skript zum Senden von Anfragen an den benutzerdefinierten Handler, der auf dem Hugging Face Inference Endpoint bereitgestellt wird
Referenz
- https://huggingface.co/blog/lora