deeplearning nlp models
1.0.0
一個小型的、可解釋的程式碼庫,包含 PyTorch 中一些「深層」NLP 模型的重新實作。
對於有興趣深入了解 NLP 中的 DL 架構的人來說,這是一個(不完整的)起點。帶註釋的模型與一些註釋一起呈現。
有連結可以透過筆記本在帶有GPU的 Colab 上運行這些模型?
目前型號:word2vec、CNN、變壓器、gpt。 (工作正在進行中)
伯特:閱讀。領悟。
注意:這些是每個模型的玩具版本。
這些 NLP 模型按時間順序呈現,並且如您所料,相互建構。
模型類 | 模型 | 年 |
---|---|---|
嵌入 | ||
1. | Word2Vec 嵌入(自我監督學習) | 2013年 |
CNN | ||
2. | 基於CNN的文本分類(二元分類) | 2014年 |
變形金剛 | ||
3. | OG Transformer(機器翻譯) | 2017年 |
4. | OpenAI的GPT模型(語言模型) | 2018, 2019, 2020 |
該存儲庫具有以下功能:
在回顧了這些模型之後,您可以探索其他模型:
Char-RNN、BERT、ELMO、XLNET、所有其他 BERT、BART、Performer、T5 等...
未來要實施的模型:
未來的回購功能:
您可以使用pip
安裝儲存庫:
pip install git + https : // github . com / will - thompson - k / deeplearning - nlp - models
以下是儲存庫的細分:
nlpmodels/models
:每篇論文的模型程式碼。 nlpmodels/utils
:包含與建構模型相關的所有輔助類,包括資料集、詞彙、分詞器、採樣器和訓練器類。 (注意:大多數非模型檔案都被放入 utils 中。我建議不要在較大的儲存庫中這樣做。) tests
:輕度(絕不是全面)覆蓋。 notebooks
:包含每個模型實現的筆記本和文章。一些有用的指令:
make test
:執行全套測試(您也可以使用setup.py test
和run_tests.sh
)。 make test_light
:執行除迴歸測試之外的所有測試。 make lint
:如果你真的喜歡 linting 程式碼(也可以執行run_pylint.sh
)。 Python 3.6+
以下是軟體包要求(可在requirements.txt中找到)
@ misc { deeplearning - nlp - models ,
author = { Thompson , Will },
url = { https : // github . com / will - thompson - k / deeplearning - nlp - models },
year = { 2020 }
}
麻省理工學院