flash attention jax Unduh - flash attention jax Unduh kode sumber

flash attention jax

Kode Sumber AI

0.3.1

Unduh

Perhatian Kilat - Jax

Implementasi Flash Attention di Jax. Kemungkinan besar kinerjanya tidak akan sekuat versi CUDA resmi, mengingat kurangnya kemampuan manajemen memori yang baik. Tapi hanya untuk tujuan pendidikan dan juga untuk melihat seberapa pintar compiler XLA (atau tidak).

Memasang

$ pip install flash-attention-jax

Penggunaan

 from jax import random
from flash_attention_jax import flash_attention

rng_key = random . PRNGKey ( 42 )

q = random . normal ( rng_key , ( 1 , 2 , 131072 , 512 ))  # (batch, heads, seq, dim)
k = random . normal ( rng_key , ( 1 , 2 , 131072 , 512 ))
v = random . normal ( rng_key , ( 1 , 2 , 131072 , 512 ))
mask = random . randint ( rng_key , ( 1 , 131072 ,), 0 , 2 ) # (batch, seq)

out , _ = flash_attention ( q , k , v , mask )

out . shape  # (1, 2, 131072, 512) - (batch, heads, seq, dim)

Pemeriksaan kewarasan cepat

 from flash_attention_jax import plain_attention , flash_attention , value_and_grad_difference

diff , ( dq_diff , dk_diff , dv_diff ) = value_and_grad_difference (
    plain_attention ,
    flash_attention ,
    seed = 42
)

print ( 'shows differences between normal and flash attention for output, dq, dk, dv' )
print ( f'o: { diff } ' )       # < 1e-4
print ( f'dq: { dq_diff } ' )   # < 1e-6
print ( f'dk: { dk_diff } ' )   # < 1e-6
print ( f'dv: { dv_diff } ' )   # < 1e-6

Perhatian Flash Autoregresif - Perhatian decoder seperti GPT

 from jax import random
from flash_attention_jax import causal_flash_attention

rng_key = random . PRNGKey ( 42 )

q = random . normal ( rng_key , ( 131072 , 512 ))
k = random . normal ( rng_key , ( 131072 , 512 ))
v = random . normal ( rng_key , ( 131072 , 512 ))

out , _ = causal_flash_attention ( q , k , v )

out . shape  # (131072, 512)

Semua yang harus dilakukan

dimensi terdepan untuk varian perhatian kilat kausal
mencari tahu masalah dengan jit dan argnum statis
komentar dengan referensi algoritma kertas dan penjelasannya
pastikan dapat berfungsi dengan kunci/nilai berkepala satu, seperti di PaLM

Kutipan

 @article { Dao2022FlashAttentionFA ,
    title   = { FlashAttention: Fast and Memory-Efficient Exact Attention with IO-Awareness } ,
    author  = { Tri Dao and Daniel Y. Fu and Stefano Ermon and Atri Rudra and Christopher R'e } ,
    journal = { ArXiv } ,
    year    = { 2022 } ,
    volume  = { abs/2205.14135 }
}

 @article { Rabe2021SelfattentionDN ,
    title   = { Self-attention Does Not Need O(n2) Memory } ,
    author  = { Markus N. Rabe and Charles Staats } ,
    journal = { ArXiv } ,
    year    = { 2021 } ,
    volume  = { abs/2112.05682 }
}

Memperluas

Informasi Tambahan

Versi 0.3.1
Tipe Kode Sumber AI
Waktu Pembaruan 2025-01-14
ukuran 143.67KB
Berasal dari Github

Aplikasi Terkait

Pemutar Adobe Flash

2023-06-18
SXW Flash seluruh sistem situs [SXW Flash CMS]

2012-12-28
CXT Flash seluruh situs

2010-09-17
SXW Flash seluruh situs

2009-08-19
Bantuan Flash 8

2009-06-10
Macromedia Flash

2009-05-31

Direkomendasikan untuk Anda

chat.petals.dev

Kode sumber lainnya

1.0.0
GPT Prompt Templates

Kode sumber lainnya

1.0.0
GPTyped

Kode sumber lainnya

GPTyped 1.0.5
node telegram bot api

Kode Sumber AI

v0.50.0
typebot.io

Kode Sumber AI

v3.1.2
python wechaty getting started

Kode Sumber AI

1.0.0
waymo open dataset

Kode sumber lainnya

December 2023 Update
termwind

Kategori lainnya

v2.3.0
wp functions

Kategori lainnya

1.0.0

Informasi Terkait Semua