Déploiement LoRA
Ce référentiel montre comment servir plusieurs diffusions stables LoRA affinées à partir de ? Bibliothèque de diffuseurs sur Hugging Face Inference Endpoint. Étant donné que seulement quelques ~ Mo de point de contrôle sont produits après un réglage fin avec LoRA, nous pouvons changer de point de contrôle pour différentes diffusions stables affinées de manière ultra rapide, efficace en mémoire et en espace disque.
À des fins de démonstration, j'ai testé les référentiels Hugging Face Model suivants qui ont un point de contrôle LoRA affiné ( pytorch_lora_weights.bin
) :
- ethan_ai
- noto-emoji
- pokémon
Carnet de notes
- Carnet pilote : montre comment écrire et tester un gestionnaire personnalisé pour le point de terminaison d'inférence Hugging Face dans des environnements locaux ou Colab.
- Carnet d'inférence : montre comment demander une inférence au gestionnaire personnalisé déployé sur Hugging Face Inference Endopint
- Carnet d'inférence multi-travailleurs : montre comment exécuter des requêtes simultanées au gestionnaire personnalisé déployé sur le point de terminaison d'inférence Hugging Face dans l'environnement Colab.
Gestionnaire personnalisé
- handler.py : gestionnaire de base. Il a été prouvé que ce gestionnaire personnalisé fonctionne avec ce dépôt Hugging Face Model
- multiworker_handler.py : gestionnaire avancé avec pool de plusieurs travailleurs (diffusion stable). Il a été prouvé que ce gestionnaire personnalisé fonctionne avec ce dépôt Hugging Face Model
Scénario
- inference.py : script Python autonome pour envoyer des requêtes au gestionnaire personnalisé déployé sur Hugging Face Inference Endpoint
Référence
- https://huggingface.co/blog/lora