pratical llms
1.0.0
歡迎來到 LLM(大型語言模型)工程師的儲存庫!這個 Jupyter Notebooks 集合旨在收集我們工作的實際方面。我將收集並添加 jupyter 和/或腳本以用於學習和實驗目的。
筆記本 | 描述 | 網址 |
---|---|---|
1_understanding_llms_benchmarks.ipynb | 本筆記本解釋了 openLLM 排行榜中使用的主要基準。它旨在幫助您掌握法學碩士基準測試中使用的關鍵指標和方法。 | 關聯 |
2_quantization_base.ipynb | 在此筆記本中,您將學習如何使用 BitandBytes 函式庫開啟 8 位元和 4 位元的 Hugging Face 機型。量化是優化模型效能和資源使用的關鍵技術,本筆記本將引導您完成流程。 | 關聯 |
3_quantization_gptq.ipynb | 使用此筆記本的 auto-gptq 庫探索 GPTQ 格式的量化。 GPTQ 格式因其在壓縮和量化 GPT 等大型模型方面的有效性而越來越受歡迎。了解如何在您的模型中利用這種格式。 | 關聯 |
4_quantization_exllamav2.ipynb | 如何將模型從 HF 量化為 exllamav2 | 關聯 |
5_sharding_and_offloading.ipynb | 如何將模型分成多個區塊。這允許將其加載到不同的設備上或一次加載一個管理記憶體。了解如何將某些層卸載到 CPU 甚至磁碟 | 關聯 |
6_gguf_quantization_and_inference.ipynb | 使用 llama.cpp 庫將模型量化為 GGUF。在 OpenAI 相容伺服器上進行推理。 | 關聯 |
7_gguf_split_and_load.ipynb | 將 GGUF 量化模型拆分為多個部分,使其易於共享 | 關聯 |
8_hqq_quantization.ipynb | 使用半二次量化 (HQQ) 來探索量化 | 關聯 |
9_inference_big_model_cpu_plus_gpu.ipynb | 本筆記本展示如何計算量化 GGUF 模型所需的 RAM,以及如何使用 RAM 和 VRAM 將其載入到記憶體中,從而優化可以卸載到 GPU 的層數。這款筆記本展示了在具有 T4 15GB VRAM 和大約 32GB RAM 的系統上加載 Qwen/Qwen1.5-32B-Chat-GGUF 的範例 | 關聯 |
a10_inference_llama3.ipynb | LLama3 已發布。本筆電示範如果您可以使用具有24GB VRAM 的GPU,如何運行LLama3-8B-Instruct 半精度;如果您有10GB VRAM,則如何量化到8 位元;如果您有10GB VRAM,則示範如何執行Q8 GGUF 版本以實現最大性能你只有 10GB 的 VRAM。 | 關聯 |
a11_llm_guardrails_using_llama3_guard.ipynb | 使用 LLama3-guard-2 保護您的後端和生成式 AI 應用程式。在本筆記本中,我將向您展示如何使用 10GB VRAM 設定伺服器以及如何透過 HTTP POST 請求執行推理。 | 關聯 |
a12_speculative_decoding.ipynb | 該筆記本實際上描述並演示了「推測性解碼」技術,透過使用更小、更輕的草稿模型來增加目標模型每秒生成的令牌數。在 LLama-3-70B-Instruct(目標)和 LLama-3-8B-Instruct(草案)上實現的範例。 | 關聯 |
a13_inference_vision_llm.ipynb | 這本筆記本示範如何使用視覺法學碩士執行簡單的推理。例如,我選擇了微軟新發布的Phi-3-vision-128k-instruct。該模型已獲得 MIT 許可,因此可以不受任何限制地在您自己的應用程式中使用。該模型可以在一台 Nvidia L4 上運行。 | 關聯 |
a14_llm_as_evaluator.ipynb | 這本筆記本示範如何使用 Prometheus 2 使用 LLM 作為法官。 | 關聯 |
a15_llm_evaluation.ipynb | 這本筆記本示範如何使用 EleutherAI/lm-evaluation-harness 在官方排行榜中使用的公共基準上評估法學碩士。該過程與您將模型提交到排行榜時自動使用的過程相同 | 關聯 |
a16_synthetic_data_ Generation.ipynb | 在此筆記本中,我建立了一個自訂類,用於使用 Llama-3-8B 作為 LLM 從輸入檔案產生合成 QA 資料集。該腳本還演示如何在 llama-3-8b-Q_8 GGUF 上建置和運行新版本的 llama-server | 關聯 |
a17_sglan_serving_llm_multiusers.ipynb | 在此筆記本中,我展示瞭如何使用 SGLang 在自訂伺服器上有效部署 LLama3.1-8B-FP8 並為 64 個潛在並行用戶提供服務,同時保持良好的效能的所有步驟。 | 關聯 |
a18_jailbreak_control_using_promptguard.ipynb | 嘗試使用新的 PromptGuard-86M 進行越獄。劇透:此時模型似乎已損壞或非常糟糕 | 關聯 |
a19_document_information_and_table_extraction.ipynb | 本筆記本示範如何使用多模式讀寫模型 (Kosmos 2.5) 準確且有效率地擷取文字和表格,而無需使用付費雲端服務。該模型在您的個人 GPU 上運行,確保您的資料私密且安全。 | 關聯 |
a20_finetuning_llm_unsloth.ipynb | 本筆記本展示如何在「思維」結構鏈的 HF 資料集上使用 unsloth 微調 Phi-3.5-mini-instruct | 關聯 |
如需更多資源和支持,請隨時聯絡社群或參考以下內容:
祝法學碩士學習和實驗愉快!