呈現預訓練模型的語料庫。連結到 NLP 和語音中的預訓練模型以及訓練腳本。
隨著 NLP 的快速進步,引導涉及文字的機器學習專案變得越來越容易。現在,我們可以從基本的預訓練模型開始,而不是從基本程式碼開始,並在幾次迭代內獲得 SOTA 效能。此儲存庫的建立是為了使預訓練模型最大限度地減少集體人力和資源成本,從而加速該領域的發展。
由於其廣泛使用,列出的模型是針對 pytorch 或 tensorflow 精心設計的。
注意: pytorch-transofmers
是一個很棒的函式庫,可用於從 NLP 中的許多預訓練模型中快速推斷/微調。這裡不包括這些的預訓練模型。
姓名 | 關聯 | 受訓於 | 訓練腳本 |
---|---|---|---|
變形金剛-xl | https://github.com/kimiyoung/transformer-xl/tree/master/tf#obtain-and-evaluate-pretrained-sota-models | enwik8 、 lm1b 、 wt103 、 text8 | https://github.com/kimiyoung/transformer-xl |
GPT-2 | https://github.com/openai/gpt-2/blob/master/download_model.py | webtext | https://github.com/nshepperd/gpt-2/ |
自適應輸入(fairseq) | https://github.com/pytorch/fairseq/blob/master/examples/language_model/README.md#pre-trained-models | lm1b | https://github.com/pytorch/fairseq/blob/master/examples/language_model/README.md |
姓名 | 關聯 | 受訓於 | 訓練腳本 |
---|---|---|---|
XL網 | https://github.com/zihangdai/xlnet/#released-models | booksCorpus + English Wikipedia + Giga5 + ClueWeb 2012-B + Common Crawl | https://github.com/zihangdai/xlnet/ |
姓名 | 關聯 | 受訓於 | 訓練腳本 |
---|---|---|---|
羅伯塔 | https://github.com/pytorch/fairseq/tree/master/examples/roberta#pre-trained-models | 書籍Corpus+CC-N EWS+OpenWebText+CommonCrawl-Stories | https://github.com/huggingface/transformers |
伯特 | https://github.com/google-research/bert/ | 書籍語料庫+英語維基百科 | https://github.com/huggingface/transformers |
MT-DNN | https://mrc.blob.core.windows.net/mt-dnn-model/mt_dnn_base.pt(https://github.com/namisan/mt-dnn/blob/master/download.sh) | 膠水 | https://github.com/namisan/mt-dnn |
姓名 | 關聯 | 受訓於 | 訓練腳本 |
---|---|---|---|
開放式神經機器翻譯 | http://opennmt.net/Models-py/(pytorch) http://opennmt.net/Models-tf/(張量流) | 英語-德語 | https://github.com/OpenNMT/OpenNMT-py |
Fairseq(多個模型) | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md#pre-trained-models | WMT14 英語-法語、WMT16 英語-德語 | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md |
姓名 | 關聯 | 受訓於 | 訓練腳本 |
---|---|---|---|
Nvidia 情緒發現 | https://github.com/NVIDIA/sentiment-discovery#pretrained-models | SST、IMDB、Semeval-2018-tweet-emotion | https://github.com/NVIDIA/sentiment-discovery |
MT-DNN 情感 | https://drive.google.com/open?id=1-ld8_WpdQVDjPeYhb3AK8XYLGlZEbs-l | 海溫 | https://github.com/namisan/mt-dnn |
秩 | 姓名 | 關聯 | 訓練腳本 |
---|---|---|---|
49 | 比達夫 | https://s3-us-west-2.amazonaws.com/allennlp/models/bidaf-model-2017.09.15-charpad.tar.gz | https://github.com/allenai/allennlp |
英文摘要模型
姓名 | 關聯 | 受訓於 | 訓練腳本 |
---|---|---|---|
開放式神經機器翻譯 | http://opennmt.net/Models-py/ | 千兆字標準 | https://github.com/OpenNMT/OpenNMT-py |
姓名 | 關聯 | 受訓於 | 訓練腳本 |
---|---|---|---|
NeMo石英網 | https://ngc.nvidia.com/catalog/models/nvidia:quartznet15x5 | librispeech,mozilla 通用語音 | https://github.com/NVIDIA/NeMo |
OpenSeq2Seq-Jasper | https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition.html#models | 書本言語 | https://github.com/NVIDIA/OpenSeq2Seq |
埃斯普網絡 | https://github.com/espnet/espnet#asr-results | librispeech、Aishell、科大、TEDLIUM2 | https://github.com/espnet/espnet |
wav2字母++ | https://talonvoice.com/research/ | 書本言語 | https://github.com/facebookresearch/wav2letter |
Deepspeech2 pytorch | SeanNaren/deepspeech.pytorch#299(評論) | 書本言語 | https://github.com/SeanNaren/deepspeech.pytorch |
深度語音 | https://github.com/mozilla/DeepSpeech#getting-the-pre-trained-model | mozilla-common-voice、librispeech、fisher、總機 | https://github.com/mozilla/DeepSpeech |
語音到文字 Wavenet | https://github.com/buriburisuri/speech-to-text-wavenet#pre-trained-models | VCTK | https://github.com/buriburisuri/speech-to-text-wavenet |
16k | https://github.com/at16k/at16k#download-models | 不適用 | 不適用 |
本文檔中引用的資料集
http://commoncrawl.org/
維基百科資料轉儲(大文字壓縮基準)http://mattmahoney.net/dc/textdata.html
維基百科清理文字(大文字壓縮基準)http://mattmahoney.net/dc/textdata.html
10 億字語言模型基準 https://www.statmt.org/lm-benchmark/
維基文本 103 https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/
作者未發布原始資料集。開源集合位於 https://skylion007.github.io/OpenWebTextCorpus/
https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia
https://yknzhu.wixsite.com/mbweb https://github.com/soskek/bookcorpus
史丹佛情感樹庫 https://nlp.stanford.edu/sentiment/index.html。膠水任務之一。
用於情緒分類的 IMDB 電影評論資料集 http://ai.stanford.edu/~amaas/data/sentiment
Semeval 2018 年推文情緒資料集 https://competitions.codalab.org/competitions/17751
Glue 是用於對自然語言系統進行基準測試的資源集合。 https://gluebenchmark.com/ 包含自然語言推理、情緒分類、釋義檢測、相似性匹配和語言可接受性的資料集。
https://pdfs.semanticscholar.org/a723/97679079439b075de815553c7b687ccfa886.pdf
www.danielpovey.com/files/2015_icassp_librispeech.pdf
https://ieeexplore.ieee.org/document/225858/
https://github.com/mozilla/voice-web
https://datashare.is.ed.ac.uk/handle/10283/2651
高品質的研究,不包括供公眾使用的預訓練模型和/或代碼。
allen nlp 基於 pytorch 構建,製作了 SOTA 模型並將其開源。 https://github.com/allenai/allennlp/blob/master/MODELS.md
他們在 https://demo.allennlp.org/ 上提供了各種任務的簡潔互動式演示
該庫基於 MXNet,擁有針對 NLP 中各種任務的大量預訓練模型。 http://gluon-nlp.mxnet.io/master/index.html#model-zoo