该存储库旨在实现不同形式的 Transformer 模型,包括 seq2seq(All You Need is Attention 论文中的原始架构)、仅编码器、仅解码器和统一 Transformer 模型。
这些模型并不意味着在任何任务上都是最先进的。相反,它们的目的是训练我自己的高级编程技能,并为热爱深度学习和机器智能的人们提供参考。
这项工作的灵感来自于 NanoGPT、ViT、MAE、CLIP 和 OpenCLIP 的开源存储库,并且如果没有这些开源存储库,这项工作就不可能实现。非常感谢他们开源他们的模型!
该存储库还维护变压器模型最新进展的论文列表。
该存储库具有设计列表:
目前正在致力于实施 DINO,这是一种以自我监督方式训练的 ViT 变体
模型 | 实施的 | 训练有素 | 已评估 |
---|---|---|---|
变压器 | ✅ | 不 | 不 |
GPT | ✅ | 不 | 不 |
伯特 | ✅ | 是的 | 不 |
维特 | ✅ | 不 | 不 |
MAE | 不 | 不 | 不 |
夹子 | 不 | 不 | 不 |
免责声明:由于 Transformer 的受欢迎程度和多功能性,将会有很多与实现部分或整个 Transformer 模型相关的课程作业。该存储库纯粹是为了自我训练而开发的,并且可以很好地作为实现 Transformer 模型的参考。但直接从该存储库复制是严格禁止的,这违反了大多数学术机构的行为准则。
对于那些需要重新了解 Transformer 是什么或 Transformer 的详细架构是什么样子的人,请参阅一篇图文并茂的博客:http://nlp.seas.harvard.edu/annotated-transformer/#background
这是由 Meta AI 发布的开源 LLm LLaMA2 生成的一首诗:Attention is all you need,
理解所讲内容并阅读。
变形金刚学习关系,
通过多头关注。
编码器、解码器架构,
学习良好图像的特征。
在大型数据集上进行训练,
其性能速度快。
建立在序列到序列之上,
其并行计算节省了灵活性时间。
理解语言、文字和声音,
深度学习赋予了它平衡的能力。
任务不可知,可用性广泛,
推动人工智能敏捷性的进步。
将NLP推向新的高度,
变形金刚展现了他们的威力。