Скачать llama3 from scratch - llama3 from scratch Скачать исходный код

llama3 реализован с нуля

в этом файле я реализовал llama3 с нуля, умножение одного тензора и матрицы за раз.
Кроме того, я собираюсь загрузить тензоры непосредственно из файла модели, предоставленного мета-файлами для llama3, вам необходимо загрузить веса перед запуском этого файла. вот официальная ссылка для скачивания весов: https://llama.meta.com/llama-downloads/

токенизатор

я не собираюсь реализовывать токенизатор bpe (но у Андрея Карпати действительно чистая реализация)
ссылка на его реализацию: https://github.com/karpathy/minbpe

 from pathlib import Path
import tiktoken
from tiktoken . load import load_tiktoken_bpe
import torch
import json
import matplotlib . pyplot as plt

tokenizer_path = "Meta-Llama-3-8B/tokenizer.model"
special_tokens = [
            "<|begin_of_text|>" ,
            "<|end_of_text|>" ,
            "<|reserved_special_token_0|>" ,
            "<|reserved_special_token_1|>" ,
            "<|reserved_special_token_2|>" ,
            "<|reserved_special_token_3|>" ,
            "<|start_header_id|>" ,
            "<|end_header_id|>" ,
            "<|reserved_special_token_4|>" ,
            "<|eot_id|>" ,  # end of turn
        ] + [ f"<|reserved_special_token_ { i } |>" for i in range ( 5 , 256 - 5 )]
mergeable_ranks = load_tiktoken_bpe ( tokenizer_path )
tokenizer = tiktoken . Encoding (
    name = Path ( tokenizer_path ). name ,
    pat_str = r"(?i:'s|'t|'re|'ve|'m|'ll|'d)|[^rnp{L}p{N}]?p{L}+|p{N}{1,3}| ?[^sp{L}p{N}]+[rn]*|s*[rn]+|s+(?!S)|s+" ,
    mergeable_ranks = mergeable_ranks ,
    special_tokens = { token : len ( mergeable_ranks ) + i for i , token in enumerate ( special_tokens )},
)

tokenizer . decode ( tokenizer . encode ( "hello world!" ))

 'hello world!'

чтение файла модели

обычно чтение этого зависит от того, как написаны классы модели и имена переменных внутри них.
но поскольку мы реализуем llama3 с нуля, мы будем читать файл по одному тензору за раз.

 model = torch . load ( "Meta-Llama-3-8B/consolidated.00.pth" )
print ( json . dumps ( list ( model . keys ())[: 20 ], indent = 4 ))

 [
    "tok_embeddings.weight",
    "layers.0.attention.wq.weight",
    "layers.0.attention.wk.weight",
    "layers.0.attention.wv.weight",
    "layers.0.attention.wo.weight",
    "layers.0.feed_forward.w1.weight",
    "layers.0.feed_forward.w3.weight",
    "layers.0.feed_forward.w2.weight",
    "layers.0.attention_norm.weight",
    "layers.0.ffn_norm.weight",
    "layers.1.attention.wq.weight",
    "layers.1.attention.wk.weight",
    "layers.1.attention.wv.weight",
    "layers.1.attention.wo.weight",
    "layers.1.feed_forward.w1.weight",
    "layers.1.feed_forward.w3.weight",
    "layers.1.feed_forward.w2.weight",
    "layers.1.attention_norm.weight",
    "layers.1.ffn_norm.weight",
    "layers.2.attention.wq.weight"
]

 with open ( "Meta-Llama-3-8B/params.json" , "r" ) as f :
    config = json . load ( f )
config

 {'dim': 4096,
 'n_layers': 32,
 'n_heads': 32,
 'n_kv_heads': 8,
 'vocab_size': 128256,
 'multiple_of': 1024,
 'ffn_dim_multiplier': 1.3,
 'norm_eps': 1e-05,
 'rope_theta': 500000.0}

мы используем эту конфигурацию, чтобы получить подробную информацию о модели, например

модель имеет 32 слоя-трансформера
каждый многоголовочный блок внимания имеет 32 головки
размер словарного запаса и так далее

 dim = config [ "dim" ]
n_layers = config [ "n_layers" ]
n_heads = config [ "n_heads" ]
n_kv_heads = config [ "n_kv_heads" ]
vocab_size = config [ "vocab_size" ]
multiple_of = config [ "multiple_of" ]
ffn_dim_multiplier = config [ "ffn_dim_multiplier" ]
norm_eps = config [ "norm_eps" ]
rope_theta = torch . tensor ( config [ "rope_theta" ])

преобразование текста в токены

здесь мы используем tiktoken (я думаю, библиотеку openai) в качестве токенизатора

 prompt = "the answer to the ultimate question of life, the universe, and everything is "
tokens = [ 128000 ] + tokenizer . encode ( prompt )
print ( tokens )
tokens = torch . tensor ( tokens )
prompt_split_as_tokens = [ tokenizer . decode ([ token . item ()]) for token in tokens ]
print ( prompt_split_as_tokens )

 [128000, 1820, 4320, 311, 279, 17139, 3488, 315, 2324, 11, 279, 15861, 11, 323, 4395, 374, 220]
['<|begin_of_text|>', 'the', ' answer', ' to', ' the', ' ultimate', ' question', ' of', ' life', ',', ' the', ' universe', ',', ' and', ' everything', ' is', ' ']

конвертация токенов в их встраивание

ИЗВИНИТЕ, но это единственная часть кодовой базы, где я использую встроенный модуль нейронной сети.
в любом случае, наши токены [17x1] теперь имеют вид [17x4096], т.е. 17 вложений (по одному на каждый токен) длиной 4096.

примечание: следите за фигурами, так будет намного проще все понять

 embedding_layer = torch . nn . Embedding ( vocab_size , dim )
embedding_layer . weight . data . copy_ ( model [ "tok_embeddings.weight" ])
token_embeddings_unnormalized = embedding_layer ( tokens ). to ( torch . bfloat16 )
token_embeddings_unnormalized . shape

 torch.Size([17, 4096])

затем мы нормализуем вложение, используя среднеквадратичную нормализацию

обратите внимание, что после этого шага формы не меняются, значения просто нормализуются.
следует иметь в виду: нам нужен файлnormal_eps (из конфигурации), потому что мы не хотим случайно установить среднеквадратичное значение на 0 и разделить на 0.
вот формула:

 # def rms_norm(tensor, norm_weights):
#     rms = (tensor.pow(2).mean(-1, keepdim=True) + norm_eps)**0.5
#     return tensor * (norm_weights / rms)
def rms_norm ( tensor , norm_weights ):
    return ( tensor * torch . rsqrt ( tensor . pow ( 2 ). mean ( - 1 , keepdim = True ) + norm_eps )) * norm_weights

построение первого первого слоя трансформатора

нормализация

вы увидите, что я получаю доступ к Layer.0 из словаря модели (это первый уровень)
в любом случае, после нормализации наши фигуры по-прежнему [17x4096] такие же, как и встраивание, но нормализованы.

 token_embeddings = rms_norm ( token_embeddings_unnormalized , model [ "layers.0.attention_norm.weight" ])
token_embeddings . shape

 torch.Size([17, 4096])

внимание реализовано с нуля

давайте загрузим внимание головок первого слоя трансформера

> когда мы загружаем векторы запроса, ключа, значения и вывода из модели, мы замечаем фигуры: [4096x4096], [1024x4096], [1024x4096], [4096x4096]
> на первый взгляд это странно, потому что в идеале нам нужны каждый q,k,v и o для каждой головы индивидуально
> Авторы кода объединили их вместе, потому что это легко помогает парализовать умножение внимания.
> собираюсь все развернуть...

 print (
    model [ "layers.0.attention.wq.weight" ]. shape ,
    model [ "layers.0.attention.wk.weight" ]. shape ,
    model [ "layers.0.attention.wv.weight" ]. shape ,
    model [ "layers.0.attention.wo.weight" ]. shape
)

 torch.Size([4096, 4096]) torch.Size([1024, 4096]) torch.Size([1024, 4096]) torch.Size([4096, 4096])

развертывание запроса

в следующем разделе мы развернём запросы из нескольких головок внимания, в результате получится [32x128x4096]

здесь 32 — количество голов внимания в llama3, 128 — размер вектора запроса и 4096 — размер встраивания токена

 q_layer0 = model [ "layers.0.attention.wq.weight" ]
head_dim = q_layer0 . shape [ 0 ] // n_heads
q_layer0 = q_layer0 . view ( n_heads , head_dim , dim )
q_layer0 . shape

 torch.Size([32, 128, 4096])

я собираюсь реализовать первую голову первого слоя

здесь я получаю доступ к первой главе матрицы весов запроса первого уровня, размер этой матрицы весов запроса составляет [128x4096]

 q_layer0_head0 = q_layer0 [ 0 ]
q_layer0_head0 . shape

 torch.Size([128, 4096])

теперь мы умножаем веса запроса на встраивание токена, чтобы получить запрос на токен.

здесь вы можете видеть, что полученная фигура — [17x128], это потому, что у нас есть 17 токенов, и для каждого токена есть запрос длиной 128.

 q_per_token = torch . matmul ( token_embeddings , q_layer0_head0 . T )
q_per_token . shape

 torch.Size([17, 128])

кодирование позиционирования

сейчас мы находимся на этапе, когда у нас есть вектор запроса для каждого токена в нашей подсказке, но если подумать, то индивидуальный вектор запроса понятия не имеет о позиции в подсказке.

запрос: «Ответ на главный вопрос жизни, Вселенной и всего остального»

в нашей подсказке мы использовали «the» три раза, нам нужно, чтобы векторы запроса всех трех токенов «the» имели разные векторы запроса (каждый размером [1x128]) в зависимости от их позиций в запросе. мы выполняем эти вращения с помощью RoPE (вращательное позиционное встраивание).

Веревка

посмотрите это видео (это то, что я смотрел), чтобы понять математику. https://www.youtube.com/watch?v=o29P0Kpobz0&t=530s

 q_per_token_split_into_pairs = q_per_token . float (). view ( q_per_token . shape [ 0 ], - 1 , 2 )
q_per_token_split_into_pairs . shape

 torch.Size([17, 64, 2])

на предыдущем шаге мы разделили векторы запроса на пары и применяем сдвиг угла поворота к каждой паре!

теперь у нас есть вектор размером [17x64x2], это 128 запросов длины, разделенных на 64 пары для каждого токена в приглашении! каждая из этих 64 пар будет повернута на m*(тета), где m — позиция токена, для которого мы меняем запрос!

использование скалярного произведения комплексных чисел для поворота вектора

 zero_to_one_split_into_64_parts = torch . tensor ( range ( 64 )) / 64
zero_to_one_split_into_64_parts

 tensor([0.0000, 0.0156, 0.0312, 0.0469, 0.0625, 0.0781, 0.0938, 0.1094, 0.1250,
        0.1406, 0.1562, 0.1719, 0.1875, 0.2031, 0.2188, 0.2344, 0.2500, 0.2656,
        0.2812, 0.2969, 0.3125, 0.3281, 0.3438, 0.3594, 0.3750, 0.3906, 0.4062,
        0.4219, 0.4375, 0.4531, 0.4688, 0.4844, 0.5000, 0.5156, 0.5312, 0.5469,
        0.5625, 0.5781, 0.5938, 0.6094, 0.6250, 0.6406, 0.6562, 0.6719, 0.6875,
        0.7031, 0.7188, 0.7344, 0.7500, 0.7656, 0.7812, 0.7969, 0.8125, 0.8281,
        0.8438, 0.8594, 0.8750, 0.8906, 0.9062, 0.9219, 0.9375, 0.9531, 0.9688,
        0.9844])

 freqs = 1.0 / ( rope_theta ** zero_to_one_split_into_64_parts )
freqs

 tensor([1.0000e+00, 8.1462e-01, 6.6360e-01, 5.4058e-01, 4.4037e-01, 3.5873e-01,
        2.9223e-01, 2.3805e-01, 1.9392e-01, 1.5797e-01, 1.2869e-01, 1.0483e-01,
        8.5397e-02, 6.9566e-02, 5.6670e-02, 4.6164e-02, 3.7606e-02, 3.0635e-02,
        2.4955e-02, 2.0329e-02, 1.6560e-02, 1.3490e-02, 1.0990e-02, 8.9523e-03,
        7.2927e-03, 5.9407e-03, 4.8394e-03, 3.9423e-03, 3.2114e-03, 2.6161e-03,
        2.1311e-03, 1.7360e-03, 1.4142e-03, 1.1520e-03, 9.3847e-04, 7.6450e-04,
        6.2277e-04, 5.0732e-04, 4.1327e-04, 3.3666e-04, 2.7425e-04, 2.2341e-04,
        1.8199e-04, 1.4825e-04, 1.2077e-04, 9.8381e-05, 8.0143e-05, 6.5286e-05,
        5.3183e-05, 4.3324e-05, 3.5292e-05, 2.8750e-05, 2.3420e-05, 1.9078e-05,
        1.5542e-05, 1.2660e-05, 1.0313e-05, 8.4015e-06, 6.8440e-06, 5.5752e-06,
        4.5417e-06, 3.6997e-06, 3.0139e-06, 2.4551e-06])

 freqs_for_each_token = torch . outer ( torch . arange ( 17 ), freqs )
freqs_cis = torch . polar ( torch . ones_like ( freqs_for_each_token ), freqs_for_each_token )
freqs_cis . shape

# viewing tjhe third row of freqs_cis
value = freqs_cis [ 3 ]
plt . figure ()
for i , element in enumerate ( value [: 17 ]):
    plt . plot ([ 0 , element . real ], [ 0 , element . imag ], color = 'blue' , linewidth = 1 , label = f"Index: { i } " )
    plt . annotate ( f" { i } " , xy = ( element . real , element . imag ), color = 'red' )
plt . xlabel ( 'Real' )
plt . ylabel ( 'Imaginary' )
plt . title ( 'Plot of one row of freqs_cis' )
plt . show ()

png

теперь, когда у нас есть комплексное число (вектор изменения угла) для каждого элемента запроса токена

мы можем преобразовать наши запросы (тот, который мы разбили на пары) в комплексные числа, а затем скалярно умножить, чтобы повернуть запрос в зависимости от позиции
честно говоря, приятно об этом думать :)

 q_per_token_as_complex_numbers = torch . view_as_complex ( q_per_token_split_into_pairs )
q_per_token_as_complex_numbers . shape

 torch.Size([17, 64])

 q_per_token_as_complex_numbers_rotated = q_per_token_as_complex_numbers * freqs_cis
q_per_token_as_complex_numbers_rotated . shape

 torch.Size([17, 64])

после получения повернутого вектора

мы можем вернуть наши запросы в виде пар, снова просмотрев комплексные числа как действительные числа.

 q_per_token_split_into_pairs_rotated = torch . view_as_real ( q_per_token_as_complex_numbers_rotated )
q_per_token_split_into_pairs_rotated . shape

 torch.Size([17, 64, 2])

повернутые пары теперь объединены, теперь у нас есть новый вектор запроса (повернутый вектор запроса), имеющий форму [17x128], где 17 — количество токенов, а 128 — размер вектора запроса.

 q_per_token_rotated = q_per_token_split_into_pairs_rotated . view ( q_per_token . shape )
q_per_token_rotated . shape

 torch.Size([17, 128])

ключи (почти такие же, как запросы)

Я чертовски ленив, поэтому не буду заниматься математикой для ключей, единственное, что вам нужно иметь в виду, это:
> ключи генерируют ключевые векторы также размерности 128
> Ключи имеют только 1/4 веса запросов, это связано с тем, что веса ключей распределяются по 4 головкам одновременно, чтобы уменьшить количество необходимых вычислений.
> Клавиши также поворачиваются для добавления позиционной информации, как и запросы, по тем же причинам

 k_layer0 = model [ "layers.0.attention.wk.weight" ]
k_layer0 = k_layer0 . view ( n_kv_heads , k_layer0 . shape [ 0 ] // n_kv_heads , dim )
k_layer0 . shape

 torch.Size([8, 128, 4096])

 k_layer0_head0 = k_layer0 [ 0 ]
k_layer0_head0 . shape

 torch.Size([128, 4096])

 k_per_token = torch . matmul ( token_embeddings , k_layer0_head0 . T )
k_per_token . shape

 torch.Size([17, 128])

 k_per_token_split_into_pairs = k_per_token . float (). view ( k_per_token . shape [ 0 ], - 1 , 2 )
k_per_token_split_into_pairs . shape

 torch.Size([17, 64, 2])

 k_per_token_as_complex_numbers = torch . view_as_complex ( k_per_token_split_into_pairs )
k_per_token_as_complex_numbers . shape

 torch.Size([17, 64])

 k_per_token_split_into_pairs_rotated = torch . view_as_real ( k_per_token_as_complex_numbers * freqs_cis )
k_per_token_split_into_pairs_rotated . shape

 torch.Size([17, 64, 2])

 k_per_token_rotated = k_per_token_split_into_pairs_rotated . view ( k_per_token . shape )
k_per_token_rotated . shape

 torch.Size([17, 128])

на этом этапе теперь есть как повернутые значения запросов, так и ключей для каждого токена.

каждый из запросов и ключей теперь имеет форму [17x128].

на следующем шаге мы перемножим запросы и ключевые матрицы

это даст нам оценку, сопоставляющую каждый токен друг с другом.
эта оценка описывает, насколько хорошо запрос каждого токена связан с ключом каждого токена. ЭТО ВНИМАНИЕ К СЕБЕ :)
форма матрицы оценки внимания (qk_per_token) — [17x17], где 17 — количество токенов в подсказке

 qk_per_token = torch . matmul ( q_per_token_rotated , k_per_token_rotated . T ) / ( head_dim ) ** 0.5
qk_per_token . shape

 torch.Size([17, 17])

теперь нам нужно замаскировать значения ключей запроса

во время процесса обучения llama3 будущие оценки qk токена маскируются.
почему? потому что во время обучения мы учимся только предсказывать токены, используя прошлые токены.
в результате во время вывода мы устанавливаем будущие токены в ноль.

 def display_qk_heatmap ( qk_per_token ):
    _ , ax = plt . subplots ()
    im = ax . imshow ( qk_per_token . to ( float ). detach (), cmap = 'viridis' )
    ax . set_xticks ( range ( len ( prompt_split_as_tokens )))
    ax . set_yticks ( range ( len ( prompt_split_as_tokens )))
    ax . set_xticklabels ( prompt_split_as_tokens )
    ax . set_yticklabels ( prompt_split_as_tokens )
    ax . figure . colorbar ( im , ax = ax )
    
display_qk_heatmap ( qk_per_token )

png

 mask = torch . full (( len ( tokens ), len ( tokens )), float ( "-inf" ), device = tokens . device )
mask = torch . triu ( mask , diagonal = 1 )
mask

 tensor([[0., -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf],
        [0., 0., -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf],
        [0., 0., 0., -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf],
        [0., 0., 0., 0., -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf],
        [0., 0., 0., 0., 0., -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf],
        [0., 0., 0., 0., 0., 0., -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf],
        [0., 0., 0., 0., 0., 0., 0., -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf],
        [0., 0., 0., 0., 0., 0., 0., 0., -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., -inf, -inf, -inf, -inf, -inf, -inf, -inf, -inf],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., -inf, -inf, -inf, -inf, -inf, -inf, -inf],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., -inf, -inf, -inf, -inf, -inf, -inf],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., -inf, -inf, -inf, -inf, -inf],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., -inf, -inf, -inf, -inf],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., -inf, -inf, -inf],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., -inf, -inf],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., -inf],
        [0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0., 0.]])

 qk_per_token_after_masking = qk_per_token + mask
display_qk_heatmap ( qk_per_token_after_masking )

png

 qk_per_token_after_masking_after_softmax = torch . nn . functional . softmax ( qk_per_token_after_masking , dim = 1 ). to ( torch . bfloat16 )
display_qk_heatmap ( qk_per_token_after_masking_after_softmax )

png

ценности (почти конец внимания)

эти оценки (0-1) используются для определения того, какая часть матрицы значений используется для каждого токена.
> как и ключи, веса значений также распределяются по всем 4 головкам внимания (для экономии вычислений)
> в результате форма матрицы весов значений ниже имеет вид [8x128x4096]

 v_layer0 = model [ "layers.0.attention.wv.weight" ]
v_layer0 = v_layer0 . view ( n_kv_heads , v_layer0 . shape [ 0 ] // n_kv_heads , dim )
v_layer0 . shape

 torch.Size([8, 128, 4096])

первый слой, первая весовая матрица значений напора приведена ниже

 v_layer0_head0 = v_layer0 [ 0 ]
v_layer0_head0 . shape

 torch.Size([128, 4096])

векторы значений

теперь мы используем веса значений, чтобы получить значения внимания на токен, это размер [17x128], где 17 — количество токенов в приглашении, а 128 — размер вектора значений на токен.

 v_per_token = torch . matmul ( token_embeddings , v_layer0_head0 . T )
v_per_token . shape

 torch.Size([17, 128])

внимание

результирующий вектор внимания после умножения на значения на токен имеет форму [17*128]

 qkv_attention = torch . matmul ( qk_per_token_after_masking_after_softmax , v_per_token )
qkv_attention . shape

 torch.Size([17, 128])

внимание нескольких голов

У НАС ТЕПЕРЬ ЕСТЬ ЦЕННОСТЬ ВНИМАНИЯ ПЕРВОГО СЛОЯ И ПЕРВОЙ ГОЛОВЫ.
теперь я собираюсь запустить цикл и выполнить ту же самую математику, что и в ячейках выше, но для каждой головы в первом слое

Расширять