pratical llms
1.0.0
欢迎来到 LLM(大型语言模型)工程师的存储库!这个 Jupyter Notebooks 集合旨在收集我们工作的实际方面。我将收集并添加 jupyter 和/或脚本以用于学习和实验目的。
笔记本 | 描述 | 网址 |
---|---|---|
1_understanding_llms_benchmarks.ipynb | 本笔记本解释了 openLLM 排行榜中使用的主要基准。它旨在帮助您掌握法学硕士基准测试中使用的关键指标和方法。 | 关联 |
2_quantization_base.ipynb | 在此笔记本中,您将学习如何使用 BitandBytes 库打开 8 位和 4 位的 Hugging Face 模型。量化是优化模型性能和资源使用的一项关键技术,本笔记本将指导您完成该过程。 | 关联 |
3_quantization_gptq.ipynb | 使用此笔记本的 auto-gptq 库探索 GPTQ 格式的量化。 GPTQ 格式因其在压缩和量化 GPT 等大型模型方面的有效性而越来越受欢迎。了解如何在您的模型中利用这种格式。 | 关联 |
4_quantization_exllamav2.ipynb | 如何将模型从 HF 量化为 exllamav2 | 关联 |
5_sharding_and_offloading.ipynb | 如何将模型分成多个块。这允许将其加载到不同的设备上或一次加载一个管理内存。了解如何将某些层卸载到 CPU 甚至磁盘 | 关联 |
6_gguf_quantization_and_inference.ipynb | 使用 llama.cpp 库将模型量化为 GGUF。在 OpenAI 兼容服务器上进行推理。 | 关联 |
7_gguf_split_and_load.ipynb | 将 GGUF 量化模型拆分为多个部分,使其易于共享 | 关联 |
8_hqq_quantization.ipynb | 使用半二次量化 (HQQ) 探索量化 | 关联 |
9_inference_big_model_cpu_plus_gpu.ipynb | 本笔记本展示了如何计算量化 GGUF 模型所需的 RAM,以及如何使用 RAM 和 VRAM 将其加载到内存中,从而优化可以卸载到 GPU 的层数。该笔记本演示了在具有 T4 15GB VRAM 和大约 32GB RAM 的系统上加载 Qwen/Qwen1.5-32B-Chat-GGUF 的示例 | 关联 |
a10_inference_llama3.ipynb | LLama3 已发布。本笔记本演示了如果您可以使用具有 24GB VRAM 的 GPU,如何运行 LLama3-8B-Instruct 半精度;如果您有 10GB VRAM,则如何量化到 8 位;如果您有 10GB VRAM,则演示如何运行 Q8 GGUF 版本以实现最大性能你只有 10GB 的 VRAM。 | 关联 |
a11_llm_guardrails_using_llama3_guard.ipynb | 使用 LLama3-guard-2 保护您的后端和生成式 AI 应用程序。在本笔记本中,我将向您展示如何使用 10GB VRAM 设置服务器以及如何通过 HTTP POST 请求执行推理。 | 关联 |
a12_speculative_decoding.ipynb | 该笔记本实际上描述并演示了“推测性解码”技术,通过使用更小、更轻的草稿模型来增加目标模型每秒生成的令牌数。在 LLama-3-70B-Instruct(目标)和 LLama-3-8B-Instruct(草案)上实现的示例。 | 关联 |
a13_inference_vision_llm.ipynb | 该笔记本演示了如何使用视觉法学硕士执行简单的推理。例如,我选择了微软新发布的Phi-3-vision-128k-instruct。该模型已获得 MIT 许可,因此可以不受任何限制地在您自己的应用程序中使用。该模型可以在一台 Nvidia L4 上运行。 | 关联 |
a14_llm_as_evaluator.ipynb | 该笔记本演示了如何使用 Prometheus 2 使用 LLM 作为法官。笔记本中显示了如何评估从我们的任何 LLM 或应用程序管道返回的答案。 | 关联 |
a15_llm_evaluation.ipynb | 该笔记本演示了如何使用 EleutherAI/lm-evaluation-harness 在官方排行榜中使用的公共基准上评估法学硕士。该过程与您将模型提交到排行榜时自动使用的过程相同 | 关联 |
a16_synthetic_data_ Generation.ipynb | 在此笔记本中,我创建了一个自定义类,用于使用 Llama-3-8B 作为 LLM 从输入文件生成合成 QA 数据集。该脚本还演示了如何在 llama-3-8b-Q_8 GGUF 上构建和运行新版本的 llama-server | 关联 |
a17_sglan_serving_llm_multiusers.ipynb | 在此笔记本中,我展示了如何使用 SGLang 在自定义服务器上高效部署 LLama3.1-8B-FP8 并为 64 个潜在并行用户提供服务,同时保持良好的性能的所有步骤。 | 关联 |
a18_jailbreak_control_using_promptguard.ipynb | 尝试使用新的 PromptGuard-86M 进行越狱。剧透:此时模型似乎已损坏或非常糟糕 | 关联 |
a19_document_information_and_table_extraction.ipynb | 本笔记本演示了如何使用多模式读写模型 (Kosmos 2.5) 准确高效地提取文本和表格,而无需使用付费云服务。该模型在您的个人 GPU 上运行,确保您的数据私密且安全。 | 关联 |
a20_finetuning_llm_unsloth.ipynb | 本笔记本展示了如何在“思维”结构链的 HF 数据集上使用 unsloth 微调 Phi-3.5-mini-instruct | 关联 |
如需更多资源和支持,请随时联系社区或参考以下内容:
祝法学硕士学习和实验愉快!