Implementación de LoRA
Este repositorio demuestra cómo servir múltiples difusiones estables ajustadas por LoRA desde ? Biblioteca de difusores en el punto final de inferencia de cara abrazada. Dado que solo se producen unos pocos ~ MB de punto de control después del ajuste fino con LoRA, podemos cambiar diferentes puntos de control para diferentes Difusiones estables ajustadas de manera súper rápida, eficiente en memoria y espacio en disco.
Para fines de demostración, probé los siguientes repositorios de Hugging Face Model que tienen un punto de control ajustado por LoRA ( pytorch_lora_weights.bin
):
- ethan_ai
- noto-emoji
- pokemon
Computadora portátil
- Cuaderno piloto: muestra cómo escribir y probar un controlador personalizado para Hugging Face Inference Endpoint en entornos locales o Colab.
- Cuaderno de inferencia: muestra cómo solicitar inferencia al controlador personalizado implementado en Hugging Face Inference Endopint
- Cuaderno de inferencia para múltiples trabajadores: muestra cómo ejecutar solicitudes simultáneas al controlador personalizado implementado en el punto final de inferencia de Hugging Face en el entorno de Colab
Controlador personalizado
- handler.py: controlador básico. Se ha demostrado que este controlador personalizado funciona con este repositorio de Hugging Face Model
- multiworker_handler.py: controlador avanzado con grupo de múltiples trabajadores (difusión estable). Se ha demostrado que este controlador personalizado funciona con este repositorio de Hugging Face Model
Guion
- inference.py: script de Python independiente para enviar solicitudes al controlador personalizado implementado en el punto final de inferencia de Hugging Face
Referencia
- https://huggingface.co/blog/lora