LoRA部署
该存储库演示了如何从 ? 提供多个经过 LoRA 微调的稳定扩散。 Hugging Face Inference Endpoint 上的 Diffusers 库。由于使用 LoRA 微调后仅产生几 MB 的检查点,因此我们可以以超快速、内存高效和磁盘空间高效的方式为不同的微调稳定扩散切换不同的检查点。
出于演示目的,我测试了以下拥抱面部模型存储库,其中包含 LoRA 微调检查点( pytorch_lora_weights.bin
):
笔记本
- 试点笔记本:展示如何在本地或 Colab 环境中编写和测试 Hugging Face Inference Endpoint 的自定义处理程序
- 推理笔记本:展示如何请求推理部署在 Hugging Face Inference Endopint 上的自定义处理程序
- 多工作人员推理笔记本:展示如何对 Colab 环境中 Hugging Face Inference Endpoint 上部署的自定义处理程序运行同时请求
自定义处理程序
- handler.py:基本处理程序。事实证明,此自定义处理程序可与此 Hugging Face Model 存储库配合使用
- multiworker_handler.py:具有多个工作(稳定扩散)池的高级处理程序。事实证明,此自定义处理程序可与此 Hugging Face Model 存储库配合使用
脚本
- inference.py:独立的 Python 脚本,用于将请求发送到部署在 Hugging Face Inference Endpoint 上的自定义处理程序
参考
- https://huggingface.co/blog/lora