此儲存庫旨在實作不同形式的 Transformer 模型,包括 seq2seq(All You Need is Attention 論文中的原始架構)、僅編碼器、僅解碼器和統一 Transformer 模型。
這些模型並不意味著在任何任務上都是最先進的。相反,它們的目的是訓練我自己的高級程式設計技能,並為熱愛深度學習和機器智慧的人提供參考。
這項工作的靈感來自於 NanoGPT、ViT、MAE、CLIP 和 OpenCLIP 的開源儲存庫,並且如果沒有這些開源儲存庫,這項工作就不可能實現。非常感謝他們開源他們的模型!
該存儲庫還維護變壓器模型最新進展的論文清單。
此儲存庫具有設計清單:
目前正在致力於實施 DINO,這是一種以自我監督方式訓練的 ViT 變體
模型 | 實施的 | 訓練有素 | 已評估 |
---|---|---|---|
變壓器 | ✅ | 不 | 不 |
GPT | ✅ | 不 | 不 |
伯特 | ✅ | 是的 | 不 |
維特 | ✅ | 不 | 不 |
MAE | 不 | 不 | 不 |
夾子 | 不 | 不 | 不 |
免責聲明:由於 Transformer 的受歡迎程度和多功能性,將會有許多與實現部分或整個 Transformer 模型相關的課程作業。這個儲存庫純粹是為了自我訓練而開發的,並且可以很好地作為實現 Transformer 模型的參考。但直接從該儲存庫複製是嚴格禁止的,這違反了大多數學術機構的行為準則。
對於那些需要重新了解 Transformer 是什麼或 Transformer 的詳細架構是什麼樣子的人,請參閱一篇圖文並茂的博客:http://nlp.seas.harvard.edu/annotated-transformer/#background
這是由 Meta AI 發布的開源 LLm LLaMA2 生成的一首詩:Attention is all you need,
理解所講內容並閱讀。
變形金剛學習關係,
透過多頭關注。
編碼器、解碼器架構,
學習良好圖像的特徵。
在大型資料集上進行訓練,
其性能速度快。
建立在序列到序列之上,
其並行計算節省了靈活性時間。
理解語言、文字和聲音,
深度學習賦予了它平衡的能力。
任務不可知,可用性廣泛,
推動人工智慧敏捷性的進步。
將NLP推向新的高度,
變形金剛展現了他們的威力。