Apresentando C orpus de Modelos P retreinados. Links para modelos pré-treinados em PNL e voz com roteiro de treinamento.
Com o rápido progresso na PNL, está se tornando mais fácil inicializar um projeto de aprendizado de máquina envolvendo texto. Em vez de começar com um código base, agora é possível começar com um modelo básico pré-treinado e, em algumas iterações, obter desempenho SOTA. Este repositório é feito pensando que modelos pré-treinados minimizam o esforço humano coletivo e o custo de recursos, acelerando assim o desenvolvimento na área.
Os modelos listados são selecionados para pytorch ou tensorflow devido ao seu amplo uso.
Nota: pytorch-transofmers
é uma biblioteca incrível que pode ser usada para inferir/ajustar rapidamente a partir de muitos modelos pré-treinados em PNL. Os modelos pré-treinados deles não estão incluídos aqui.
Nome | Link | Treinado em | Roteiro de treinamento |
---|---|---|---|
Transformador-xl | https://github.com/kimiyoung/transformer-xl/tree/master/tf#obtain-and-evaluate-pretrained-sota-models | enwik8 , lm1b , wt103 , text8 | https://github.com/kimiyoung/transformer-xl |
GPT-2 | https://github.com/openai/gpt-2/blob/master/download_model.py | webtext | https://github.com/nshepperd/gpt-2/ |
Entradas adaptativas (fairseq) | https://github.com/pytorch/fairseq/blob/master/examples/language_model/README.md#pre-trained-models | lm1b | https://github.com/pytorch/fairseq/blob/master/examples/linguagem_model/README.md |
Nome | Link | Treinado em | Roteiro de treinamento |
---|---|---|---|
XLNet | https://github.com/zihangdai/xlnet/#released-models | booksCorpus + English Wikipedia + Giga5 + ClueWeb 2012-B + Common Crawl | https://github.com/zihangdai/xlnet/ |
Nome | Link | Treinado em | Roteiro de treinamento |
---|---|---|---|
RoBERTa | https://github.com/pytorch/fairseq/tree/master/examples/roberta#pre-trained-models | livrosCorpus+CC-N EWS+OpenWebText+CommonCrawl-Stories | https://github.com/huggingface/transformers |
BERTO | https://github.com/google-research/bert/ | livrosCorpus+Wikipedia em inglês | https://github.com/huggingface/transformers |
MT-DNN | https://mrc.blob.core.windows.net/mt-dnn-model/mt_dnn_base.pt (https://github.com/namisan/mt-dnn/blob/master/download.sh) | cola | https://github.com/namisan/mt-dnn |
Nome | Link | Treinado em | Roteiro de treinamento |
---|---|---|---|
OpenNMT | http://opennmt.net/Models-py/ (pytorch) http://opennmt.net/Models-tf/ (tensorflow) | Inglês-Alemão | https://github.com/OpenNMT/OpenNMT-py |
Fairseq (vários modelos) | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md#pre-trained-models | WMT14 Inglês-Francês, WMT16 Inglês-Alemão | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md |
Nome | Link | Treinado em | Roteiro de treinamento |
---|---|---|---|
Descoberta de sentimento da Nvidia | https://github.com/NVIDIA/sentiment-discovery#pretrained-models | SST, imdb, Semeval-2018-tweet-emoção | https://github.com/NVIDIA/sentiment-discovery |
Sentimento MT-DNN | https://drive.google.com/open?id=1-ld8_WpdQVDjPeYhb3AK8XYLGlZEbs-l | TSM | https://github.com/namisan/mt-dnn |
Classificação | Nome | Link | Roteiro de treinamento |
---|---|---|---|
49 | BiDaf | https://s3-us-west-2.amazonaws.com/allennlp/models/bidaf-model-2017.09.15-charpad.tar.gz | https://github.com/allenai/allennlp |
Modelo para resumo em inglês
Nome | Link | Treinado em | Roteiro de treinamento |
---|---|---|---|
OpenNMT | http://opennmt.net/Models-py/ | Padrão gigaword | https://github.com/OpenNMT/OpenNMT-py |
Nome | Link | Treinado em | Roteiro de treinamento |
---|---|---|---|
NeMo-quartznet | https://ngc.nvidia.com/catalog/models/nvidia:quartznet15x5 | librispeech,mozilla-common-voice | https://github.com/NVIDIA/NeMo |
OpenSeq2Seq-Jasper | https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition.html#models | librispeech | https://github.com/NVIDIA/OpenSeq2Seq |
Espnet | https://github.com/espnet/espnet#asr-results | librispeech,Aishell,HKUST,TEDLIUM2 | https://github.com/espnet/espnet |
wav2letra++ | https://talonvoice.com/research/ | librispeech | https://github.com/facebookresearch/wav2letter |
Deepspeech2 pytorch | SeanNaren/deepspeech.pytorch#299 (comentário) | librispeech | https://github.com/SeanNaren/deepspeech.pytorch |
Fala Profunda | https://github.com/mozilla/DeepSpeech#getting-the-pre-trained-model | mozilla-common-voice, librispeech, fisher, central telefônica | https://github.com/mozilla/DeepSpeech |
wavenet de fala para texto | https://github.com/buriburisuri/speech-to-text-wavenet#pre-trained-models | vctk | https://github.com/buriburisuri/speech-to-text-wavenet |
às 16k | https://github.com/at16k/at16k#download-models | N / D | N / D |
Conjuntos de dados referenciados neste documento
http://commoncrawl.org/
Despejo de dados da Wikipedia (benchmark de compactação de texto grande) http://mattmahoney.net/dc/textdata.html
Texto limpo da Wikipedia (benchmark de compactação de texto grande) http://mattmahoney.net/dc/textdata.html
Referência de modelo de linguagem de 1 bilhão de palavras https://www.statmt.org/lm-benchmark/
Wikitexto 103 https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/
Conjunto de dados original não divulgado pelos autores. Uma coleção de código aberto está disponível em https://skylion007.github.io/OpenWebTextCorpus/
https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-idioma_Wikipedia
https://yknzhu.wixsite.com/mbweb https://github.com/soskek/bookcorpus
Banco de árvore de sentimento de Stanford https://nlp.stanford.edu/sentiment/index.html. Uma das tarefas do Glue.
Conjunto de dados de resenhas de filmes do IMDB usado para classificação de sentimentos http://ai.stanford.edu/~amaas/data/sentiment
Conjunto de dados de emoções de tweet do semestre de 2018 https://competitions.codalab.org/competitions/17751
Glue é uma coleção de recursos para benchmarking de sistemas de linguagem natural. https://gluebenchmark.com/ Contém conjuntos de dados sobre inferência de linguagem natural, classificação de sentimentos, detecção de paráfrases, correspondência de similaridade e aceitabilidade linguística.
https://pdfs.semanticscholar.org/a723/97679079439b075de815553c7b687ccfa886.pdf
www.danielpovey.com/files/2015_icassp_librispeech.pdf
https://ieeexplore.ieee.org/document/225858/
https://github.com/mozilla/voice-web
https://datashare.is.ed.ac.uk/handle/10283/2651
Pesquisa de alta qualidade que não inclui modelos e/ou códigos pré-treinados para uso público.
Construído em pytorch, allen nlp produziu modelos SOTA e os abriu em código-fonte. https://github.com/allenai/allennlp/blob/master/MODELS.md
Eles têm uma demonstração interativa bacana sobre várias tarefas em https://demo.allennlp.org/
Baseada no MXNet, esta biblioteca possui uma extensa lista de modelos pré-treinados em diversas tarefas em PNL. http://gluon-nlp.mxnet.io/master/index.html#model-zoo