LOMO下載 - LOMO源代碼下載

LOMO

其他源碼

v0.1.1

下載

英語|中文

這是針對具有有限資源和Adalomo的大型語言模型進行完整參數微調的實施方法：具有自適應學習率的低內存優化。

消息

LOMO和ADALOMO集成在transformers中並accelerate 。
PYPI軟件包lomo-optim發布了。
Lomo和Adalomo被整合到CoLLiE Library，該圖書館以有效的方式支持大型語言模型的協作培訓。

用法

您可以使用PIP從PYPI中安裝lomo-optim 。

pip install lomo-optim

然後，導入Lomo或AdaLomo 。

 from lomo_optim import Lomo
from lomo_optim import AdaLomo

Lomo和AdaLomo的使用方式與Pytorch的優化器不同，但不相同（示例）。我們建議在沒有gradnorm情況下使用AdaLomo以獲得更好的性能和更高的吞吐量。

LOMO：低內存優化

在這項工作中，我們提出了一個新的優化器，即L -W-Memory O Ptimization（ LOMO ），該功能將梯度計算和參數更新融合，以減少存儲器使用情況。我們的方法啟用了單個RTX 3090上7B模型的完整參數微調，或者在具有8×RTX 3090的單個計算機上的65B模型，每個模型都有24GB內存。

執行

我們的實現依賴於將鉤子功能注入Pytorch的向後通過。如圖所示，我們為每個參數註冊一個自定義的掛鉤函數。當計算參數的梯度（在將其寫入.grad屬性之前）時，調用其相應的鉤函數。有關掛鉤功能和自動踢圖的向後通過的更多信息，請參閱Pytorch的文檔。總而言之，在向後傳球期間，我們通過張量及其grad_fn，將梯度寫入.grad屬性，然後傳遞到下一個張量。

我們的自定義掛鉤函數掃描所有參數，如果其.grad屬性不是空的，則更新一個參數，然後清除並釋放.grad屬性。由於在設置其.grad屬性之前調用了一個參數的掛鉤函數，因此在調用最後一個掛鉤函數時，Autograd Graph中最後一個參數的.grad屬性尚未準備就緒。因此，我們執行額外的掃描以更新最後一個參數。

Lomo的代碼位於Lomo文件夾中。

Adalomo：自適應學習率的低內存優化

在這項工作中，我們檢查了Lomo和Adam優化技術之間的區別，並引入Adalomo，該技術為每個參數提供了自適應學習率，並在維持內存效率的同時使用了分組的更新歸一化。 Adalomo在指導調整和進一步的預訓練中獲得了與ADAMW相當的結果，並以更少的記憶足跡進行預訓練。

Adalomo的代碼位於Adalomo文件夾中。

引用

 @article{lv2023full,
  title={Full Parameter Fine-tuning for Large Language Models with Limited Resources},
  author={Lv, Kai and Yang, Yuqing and Liu, Tengxiao and Gao, Qinghui and Guo, Qipeng and Qiu, Xipeng},
  journal={arXiv preprint arXiv:2306.09782},
  year={2023}
}
@article{lv2023adalomo,
  title={AdaLomo: Low-memory Optimization with Adaptive Learning Rate},
  author={Lv, Kai and Yan, Hang and Guo, Qipeng and Lv, Haijun and Qiu, Xipeng},
  journal={arXiv preprint arXiv:2310.10195},
  year={2023}
}

展開

附加信息

版本 v0.1.1
類型其他源碼
更新時間 2025-02-08
大小 743.73KB
來自於 Github

相關應用

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

爲您推薦

chat.petals.dev

其他源碼

1.0.0
GPT Prompt Templates

其他源碼

1.0.0
GPTyped

其他源碼

GPTyped 1.0.5
waymo open dataset

其他源碼

December 2023 Update
Sunamu

其他源碼

Release 2.2.0
MySchedule.py

其他源碼

Updates to the fetching of week codes
waymo open dataset

其他源碼

December 2023 Update
termwind

其他類別

v2.3.0
wp functions

其他類別

1.0.0

相關資訊全部