Unduh LOMO - Unduh Kode Sumber LOMO

LOMO

Kode sumber lainnya

v0.1.1

Unduh

Bahasa Inggris |中文

Ini adalah implementasi untuk fine-tuning parameter penuh untuk model bahasa besar dengan sumber daya terbatas dan adalomo: optimasi memori rendah dengan tingkat pembelajaran adaptif.

Berita

Lomo dan Adalomo diintegrasikan dalam transformers dan accelerate .
Paket PYPI lomo-optim dirilis.
Lomo dan Adalomo diintegrasikan di CoLLiE Library, yang mendukung pelatihan kolaboratif model bahasa besar dengan cara yang efisien.

Penggunaan

Anda dapat menginstal lomo-optim dari PYPI menggunakan PIP.

pip install lomo-optim

Kemudian, impor Lomo atau AdaLomo .

 from lomo_optim import Lomo
from lomo_optim import AdaLomo

Penggunaan Lomo dan AdaLomo serupa tetapi tidak sama dengan pengoptimal Pytorch (contoh). Kami merekomendasikan untuk menggunakan AdaLomo tanpa gradnorm untuk mendapatkan kinerja yang lebih baik dan throughput yang lebih tinggi.

LOMO: Optimalisasi memori rendah

Dalam karya ini, kami mengusulkan pengoptimal baru, lo w-memory o ptimization ( LOMO ), yang memadukan perhitungan gradien dan pembaruan parameter dalam satu langkah untuk mengurangi penggunaan memori. Pendekatan kami memungkinkan penyempurnaan parameter penuh dari model 7B pada RTX 3090 tunggal, atau model 65B pada mesin tunggal dengan 8 × RTX 3090, masing-masing dengan memori 24GB.

Pelaksanaan

Implementasi kami bergantung pada fungsi suntikan kait ke pass mundur Pytorch. Seperti yang digambarkan dalam gambar, kami mendaftarkan fungsi kait yang disesuaikan untuk setiap parameter. Ketika gradien parameter dihitung (sebelum menulisnya ke atribut .grad), fungsi kait yang sesuai dipanggil. Untuk informasi lebih lanjut tentang fungsi kait dan lulus mundur dari grafik Autograd, silakan merujuk ke dokumentasi Pytorch. Singkatnya, selama lulus mundur, kita melewati tensor dan lulusannya, tuliskan gradien ke atribut .grad, dan kemudian lulus ke tensor berikutnya.

Fungsi kait yang disesuaikan kami memindai semua parameter, memperbarui parameter jika atribut .Grad tidak kosong, dan kemudian menghapus dan membebaskan atribut .Grad. Karena fungsi kait untuk parameter dipanggil sebelum atribut .grad diatur, atribut .Grad dari parameter terakhir dalam grafik Autograd tidak siap ketika fungsi kait terakhir dipanggil. Oleh karena itu, kami melakukan pemindaian tambahan untuk memperbarui parameter terakhir.

Kode untuk LOMO ada di folder LOMO.

Adalomo: Optimalisasi memori rendah dengan tingkat pembelajaran adaptif

Dalam karya ini, kami memeriksa perbedaan antara teknik optimisasi LOMO dan Adam dan memperkenalkan Adalomo, yang memberikan tingkat pembelajaran adaptif untuk setiap parameter dan menggunakan normalisasi pembaruan yang dikelompokkan dengan tetap mempertahankan efisiensi memori. Adalomo mencapai hasil yang sebanding dengan ADAMW baik dalam penyetelan instruksi dan pra-pelatihan lebih lanjut dengan lebih sedikit jejak memori.

Kode untuk Adalomo ada di folder Adalomo.

Kutipan

 @article{lv2023full,
  title={Full Parameter Fine-tuning for Large Language Models with Limited Resources},
  author={Lv, Kai and Yang, Yuqing and Liu, Tengxiao and Gao, Qinghui and Guo, Qipeng and Qiu, Xipeng},
  journal={arXiv preprint arXiv:2306.09782},
  year={2023}
}
@article{lv2023adalomo,
  title={AdaLomo: Low-memory Optimization with Adaptive Learning Rate},
  author={Lv, Kai and Yan, Hang and Guo, Qipeng and Lv, Haijun and Qiu, Xipeng},
  journal={arXiv preprint arXiv:2310.10195},
  year={2023}
}

Memperluas

Informasi Tambahan

Versi v0.1.1
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-08
ukuran 743.73KB
Berasal dari Github

Aplikasi Terkait

waymo open dataset

2024-11-18
Sunamu

2024-12-14
MySchedule.py

2024-12-15
SmartTube

2024-12-14
chat.petals.dev

2024-11-30
viptools for eslam

2024-12-15

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
Sunamu

Kode sumber lainnya

Release 2.2.0
MySchedule.py

Kode sumber lainnya

Updates to the fetching of week codes
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua