ttt lm pytorch Unduh - ttt lm pytorch Kode Sumber

ttt lm pytorch

Kode sumber lainnya

Unduh

Belajar (belajar pada waktu tes): RNN dengan keadaan tersembunyi ekspresif

Kertas | Jax CodeBase | Pengaturan | Mulai Cepat | Benchmark inferensi

Ini adalah implementasi model Pytorch resmi untuk belajar (belajar pada waktu tes): RNN dengan negara tersembunyi ekspresif. Kami tidak merekomendasikan pelatihan dengan basis kode ini, karena ditulis dalam pytorch murni tanpa optimasi sistem, sehingga pelatihan akan lambat, terutama ketika ukuran batch per-perangkat kecil.

Untuk kode pelatihan, atau untuk mereplikasi hasil dari makalah kami, silakan lihat basis kode JAX kami. Untuk kernel inferensi, atau untuk mereplikasi tolok ukur kecepatan dari makalah kami, silakan lihat implementasi kernel kami.

Abstrak

Perhatian diri bekerja dengan baik dalam konteks yang panjang tetapi memiliki kompleksitas kuadratik. Lapisan RNN yang ada memiliki kompleksitas linier, tetapi kinerja mereka dalam konteks panjang dibatasi oleh kekuatan ekspresif dari keadaan tersembunyi mereka. Kami mengusulkan kelas baru lapisan pemodelan urutan dengan kompleksitas linier dan keadaan tersembunyi ekspresif. Gagasan kuncinya adalah menjadikan status tersembunyi sebagai model pembelajaran mesin itu sendiri, dan pembaruan aturan langkah pembelajaran yang di-swadaya.

Karena keadaan tersembunyi diperbarui dengan pelatihan bahkan pada urutan tes, lapisan kami disebut lapisan pelatihan waktu tes (TTT) . Kami mempertimbangkan dua instansiasi: TTT-Linear dan TTT-MLP, yang keadaan tersembunyi masing-masing adalah model linier dan dua lapis MLP.

Pengaturan Lingkungan

pip install " transformers[torch] "

Awal yang cepat

Implementasi kami didasarkan pada transformator huggingface. Anda dapat menggunakan kode berikut untuk memuat model dan menghasilkan teks.

 from transformers import AutoTokenizer
from ttt import TTTForCausalLM , TTTConfig , TTT_STANDARD_CONFIGS

# Initializing a TTT ttt-1b style configuration
# configuration = TTTConfig(**TTT_STANDARD_CONFIGS['1b']) is equivalent to the following
configuration = TTTConfig ()

# Initializing a model from the ttt-1b style configuration
model = TTTForCausalLM ( configuration )
model . eval ()

# Accessing the model configuration
configuration = model . config

# Tokenizer
tokenizer = AutoTokenizer . from_pretrained ( 'meta-llama/Llama-2-7b-hf' )

# Prefill
input_ids = tokenizer ( "Greeting from TTT!" , return_tensors = "pt" ). input_ids
logits = model ( input_ids = input_ids )
print ( logits )

# Decoding
out_ids = model . generate ( input_ids = input_ids , max_length = 50 )
out_str = tokenizer . batch_decode ( out_ids , skip_special_tokens = True )
print ( out_str )

Catatan: Ini adalah implementasi naif dari lapisan TTT untuk tujuan tutorial. Model ini dapat dilatih menggunakan huggingface accelerate, atau loop pelatihan khusus. Kami telah merilis kernel inferensi kami yang lebih cepat dan tolok ukur kecepatannya di sini.

Memperluas

Informasi Tambahan

Versi
Tipe Kode sumber lainnya
Waktu Pembaruan 2025-02-06
ukuran 17.91KB
Berasal dari Github

Aplikasi Terkait

GitHub sgrebnov/cordova plugin background download

2024-11-05
Wa ch navra maza navsacha 2 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-03
pytorch image models

2024-11-03
Wa ch the greatest of all time 2024 ull ovie Online For Fr e Strea ings At Home

2024-11-02
wolfs 2024 f llmo ie f lmyz lla dow load ree 7 0p 4 0p a d 10 0p

2024-11-01
Halaman web pengakuan online LM memproduksi kode sumber PHP versi yang dipercantik versi resmi

2022-11-01

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
waymo open dataset

Kode sumber lainnya

December 2023 Update
SmartTube

Kode sumber lainnya

24.71 Stable
Sunamu

Kode sumber lainnya

Release 2.2.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
wp functions

Kategori lainnya

1.0.0
termwind

Kategori lainnya

v2.3.0

Informasi Terkait Semua