minGPT TF下載 - minGPT TF原始碼下載

minGPT TF

Ai源碼

1.0.0

下載

minGPT-TF

mingpt 的 TensorFlow 重新實現 mingpt-tf

筆記型電腦

play_math.ipynb和play_char.ipynb在 colab 中訓練。 play_char.ipynb筆記本的batch_size已減少以適合 colab GPU記憶體。根據GPU記憶體更改參數。

minGPT - 自述文件

明普特

GPT 訓練的 PyTorch 重新實現。 minGPT 試圖做到小、乾淨、可解釋和具有教育意義，因為目前可用的大多數都有點龐大。 GPT 不是一個複雜的模型，這個實作大約有 300 行程式碼，包括樣板檔案和完全不必要的自訂因果自註意力模組。不管怎樣，所發生的事情就是一系列索引進入一系列變壓器區塊，然後得出下一個索引的機率分佈。其餘的複雜性只是巧妙地進行批次（跨範例和序列長度），以便訓練高效。

核心 minGPT「函式庫」(hah) 是兩個檔案： mingpt/model.py包含實際的 Transformer 模型定義， mingpt/trainer.py是訓練模型的（獨立於 GPT 的）PyTorch 樣板檔案。隨附的 Jupyter 筆記本展示如何使用「庫」（哈哈）來訓練序列模型：

play_math.ipynb訓練一個專注於加法的 GPT（受到 GPT-3 論文中加法部分的啟發）
play_char.ipynb將 GPT 訓練為任意文字上的字元級語言模型，類似於我的舊 char-rnn，但使用變壓器而不是 RNN
play_words.ipynb尚未存在的 BPE 版本

使用 bpe 編碼器、分散式訓練以及也許 fp16，此實作可能能夠重現 GPT-1/GPT-2 結果，儘管我還沒有嘗試過 $$$。 GPT-3 可能遙不可及，因為我的理解是它不適合 GPU 內存，需要更仔細的模型並行處理。

用法範例

這段程式碼很簡單，只需內聯即可破解，而不是“使用”，但目前的 API 如下所示：

 # you're on your own to define a class that returns individual examples as PyTorch LongTensors
from torch . utils . data import Dataset
train_dataset = MyDataset (...)
test_dataset = MyDataset (...)

# construct a GPT model
from mingpt . model import GPT , GPTConfig
mconf = GPTConfig ( vocab_size , block_size , n_layer = 12 , n_head = 12 , n_embd = 768 ) # a GPT-1
model = GPT ( mconf )

# construct a trainer
from mingpt . trainer import Trainer , TrainerConfig
tconf = TrainerConfig ( max_epochs = 10 , batch_size = 256 )
trainer = Trainer ( model , train_dataset , test_dataset , tconf )
trainer . train ()
# (... enjoy the show for a while... )

# sample from the model (the [None, ...] and [0] are to push/pop a needed dummy batch dimension)
from mingpt . utils import sample
x = torch . tensor ([ 1 , 2 , 3 ], dtype = torch . long )[ None , ...] # context conditioning
y = sample ( model , x , steps = 30 , temperature = 1.0 , sample = True , top_k = 5 )[ 0 ]
print ( y ) # our model filled in the integer sequence with 30 additional likely integers

參考

代碼：

openai/gpt-2 有模型但沒有訓練程式碼，並且在 TensorFlow 中
openai/image-gpt 在其程式碼中有一些更現代的 gpt-3 類似修改，也是很好的參考
Huggingface/transformers 有一個語言建模範例。它功能齊全，但因此追蹤起來也有些困難。例如，一些大型函數在各種分支語句後面有多達 90% 的未使用程式碼，這些程式碼在簡單語言建模的預設設定中未使用。

論文+一些實作說明：

透過產生預訓練提高語言理解 (GPT-1)

我們的模型很大程度上遵循了原始變壓器的工作原理
我們訓練了一個僅包含 12 層解碼器的 Transformer，它帶有屏蔽的自註意力頭（768 個維度狀態和 12 個注意力頭）。對於位置前饋網絡，我們使用 3072 維內部狀態。
Adam 最大學習率為 2.5e-4。（後來該模型尺寸的 GPT-3 使用 6e-4）
LR 衰減：在前 2000 次更新中從零線性增加，並使用餘弦時間表退火到 0
我們在 64 個隨機採樣的、包含 512 個 token 的連續序列的小批量上訓練 100 個 epoch。
由於層規範在整個模型中廣泛使用，因此簡單的權重初始化 N(0, 0.02) 就足夠了
具有 40,000 個合併的位元組對編碼 (BPE) 詞彙
殘差、嵌入和注意力流失，正規化率為 0.1。
(37) 中提出的 L2 正規化的修改版本，所有非偏差或增益權重的 w = 0.01
對於激活函數，我們使用高斯誤差線性單元（GELU）。
我們使用學習的位置嵌入來代替原始工作中提出的正弦版本
對於微調：我們以 0.1 的比率向分類器添加 dropout。學習率為 6.25e-5，批量大小為 32. 3 epoch。我們使用線性學習率衰減計劃，其中預熱時間超過訓練的 0.2%。 λ設定為0.5。
GPT-1 模型有 12 層，d_model 768，約 117M 參數

語言模型是無監督多任務學習者 (GPT-2)

LayerNorm 被移至每個子塊的輸入，類似於預激活殘差網絡
在最終的自註意力塊之後添加了額外的層歸一化。
使用修改後的初始化，此初始化考慮了剩餘路徑上隨模型深度的累積。我們在初始化時將殘差層的權重縮放為 1/√N，其中 N 是殘差層的數量。（很奇怪，因為在他們發布的程式碼中我只能找到舊的0.02 的簡單用法...在他們發布的image-gpt 中我發現它用於c_proj，即使如此也僅用於attn，而不用於mlp。
詞彙量擴大至50,257
將上下文大小從 512 個標記增加到 1024 個標記
使用更大的批量大小 512
GPT-2 使用 48 層和 d_model 1600（相對於原始 12 層和 d_model 768）。 ~1.542B 參數