minGPT TF下载 - minGPT TF源代码下载

minGPT TF

Ai源码

1.0.0

下载

minGPT-TF

mingpt 的 TensorFlow 重新实现 mingpt-tf

笔记本电脑

play_math.ipynb和play_char.ipynb在 colab 中训练。每个笔记本顶部都有用于在 colab 上训练模型的链接。 play_char.ipynb笔记本的batch_size已减小以适合 colab GPU内存。根据GPU内存更改参数。

minGPT - 自述文件

明普特

GPT 训练的 PyTorch 重新实现。 minGPT 试图做到小、干净、可解释和具有教育意义，因为当前可用的大多数都有点庞大。 GPT 不是一个复杂的模型，这个实现大约有 300 行代码，包括样板文件和完全不必要的自定义因果自注意力模块。不管怎样，所发生的事情就是一系列索引进入一系列变压器块，然后得出下一个索引的概率分布。其余的复杂性只是巧妙地进行批处理（跨示例和序列长度），以便训练高效。

核心 minGPT“库”（哈）是两个文件： mingpt/model.py包含实际的 Transformer 模型定义， mingpt/trainer.py是训练模型的（独立于 GPT 的）PyTorch 样板文件。随附的 Jupyter 笔记本展示了如何使用“库”（哈哈）来训练序列模型：

play_math.ipynb训练一个专注于加法的 GPT（受到 GPT-3 论文中加法部分的启发）
play_char.ipynb将 GPT 训练为任意文本上的字符级语言模型，类似于我的旧 char-rnn，但使用变压器而不是 RNN
play_words.ipynb尚不存在的 BPE 版本

使用 bpe 编码器、分布式训练以及也许 fp16，此实现可能能够重现 GPT-1/GPT-2 结果，尽管我还没有尝试过 $$$。 GPT-3 可能遥不可及，因为我的理解是它不适合 GPU 内存，需要更仔细的模型并行处理。

用法示例

这段代码很简单，只需内联即可破解，而不是“使用”，但当前的 API 如下所示：

 # you're on your own to define a class that returns individual examples as PyTorch LongTensors
from torch . utils . data import Dataset
train_dataset = MyDataset (...)
test_dataset = MyDataset (...)

# construct a GPT model
from mingpt . model import GPT , GPTConfig
mconf = GPTConfig ( vocab_size , block_size , n_layer = 12 , n_head = 12 , n_embd = 768 ) # a GPT-1
model = GPT ( mconf )

# construct a trainer
from mingpt . trainer import Trainer , TrainerConfig
tconf = TrainerConfig ( max_epochs = 10 , batch_size = 256 )
trainer = Trainer ( model , train_dataset , test_dataset , tconf )
trainer . train ()
# (... enjoy the show for a while... )

# sample from the model (the [None, ...] and [0] are to push/pop a needed dummy batch dimension)
from mingpt . utils import sample
x = torch . tensor ([ 1 , 2 , 3 ], dtype = torch . long )[ None , ...] # context conditioning
y = sample ( model , x , steps = 30 , temperature = 1.0 , sample = True , top_k = 5 )[ 0 ]
print ( y ) # our model filled in the integer sequence with 30 additional likely integers

参考

代码：

openai/gpt-2 有模型但没有训练代码，并且在 TensorFlow 中
openai/image-gpt 在其代码中有一些更现代的 gpt-3 类似修改，也是很好的参考
Huggingface/transformers 有一个语言建模示例。它功能齐全，但因此追踪起来也有些困难。例如，一些大型函数在各种分支语句后面有多达 90% 的未使用代码，这些代码在简单语言建模的默认设置中未使用。

论文+一些实施说明：

通过生成预训练提高语言理解 (GPT-1)

我们的模型很大程度上遵循了原始变压器的工作原理
我们训练了一个仅包含 12 层解码器的 Transformer，它带有屏蔽的自注意力头（768 个维度状态和 12 个注意力头）。对于位置前馈网络，我们使用 3072 维内部状态。
Adam 最大学习率为 2.5e-4。（后来该模型尺寸的 GPT-3 使用 6e-4）
LR 衰减：在前 2000 次更新中从零线性增加，并使用余弦时间表退火到 0
我们在 64 个随机采样的、包含 512 个 token 的连续序列的小批量上训练 100 个 epoch。
由于层规范在整个模型中广泛使用，因此简单的权重初始化 N(0, 0.02) 就足够了
具有 40,000 个合并的字节对编码 (BPE) 词汇
残差、嵌入和注意力丢失，正则化率为 0.1。
(37) 中提出的 L2 正则化的修改版本，所有非偏差或增益权重的 w = 0.01
对于激活函数，我们使用高斯误差线性单元（GELU）。
我们使用学习的位置嵌入代替原始工作中提出的正弦版本
对于微调：我们以 0.1 的比率向分类器添加 dropout。学习率为 6.25e-5，批量大小为 32. 3 epoch。我们使用线性学习率衰减计划，其中预热时间超过训练的 0.2%。 λ设置为0.5。
GPT-1 模型有 12 层，d_model 768，约 117M 参数

语言模型是无监督多任务学习者 (GPT-2)

LayerNorm 被移至每个子块的输入，类似于预激活残差网络
在最终的自注意力块之后添加了额外的层归一化。
使用修改后的初始化，该初始化考虑了剩余路径上随模型深度的累积。我们在初始化时将残差层的权重缩放为 1/√N，其中 N 是残差层的数量。（很奇怪，因为在他们发布的代码中我只能找到旧的 0.02 的简单用法...在他们发布的 image-gpt 中我发现它用于 c_proj，即使如此也仅用于 attn，而不用于 mlp。呵呵。https： //github.com/openai/image-gpt/blob/master/src/model.py)
词汇量扩大至50,257
将上下文大小从 512 个标记增加到 1024 个标记
使用更大的批量大小 512
GPT-2 使用 48 层和 d_model 1600（相对于原始 12 层和 d_model 768）。 ~1.542B 参数