Presentación del corpus de modelos preentrenados . Enlaces a modelos previamente entrenados en PNL y voz con guión de entrenamiento.
Con el rápido progreso en PNL, cada vez es más fácil iniciar un proyecto de aprendizaje automático que involucre texto. En lugar de comenzar con un código base, ahora se puede comenzar con un modelo base previamente entrenado y en unas pocas iteraciones obtener rendimiento SOTA. Este repositorio se creó con la visión de que los modelos previamente entrenados minimicen el esfuerzo humano colectivo y el costo de los recursos, acelerando así el desarrollo en el campo.
Los modelos enumerados están seleccionados para pytorch o tensorflow debido a su amplio uso.
Nota: pytorch-transofmers
es una biblioteca increíble que se puede utilizar para inferir/afinar rápidamente a partir de muchos modelos previamente entrenados en PNL. Los modelos previamente entrenados no se incluyen aquí.
Nombre | Enlace | entrenado en | Guión de entrenamiento |
---|---|---|---|
transformador-xl | https://github.com/kimiyoung/transformer-xl/tree/master/tf#obtain-and-evaluate-pretrained-sota-models | enwik8 , lm1b , wt103 , text8 | https://github.com/kimiyoung/transformer-xl |
GPT-2 | https://github.com/openai/gpt-2/blob/master/download_model.py | webtext | https://github.com/nshepperd/gpt-2/ |
Entradas adaptativas (fairseq) | https://github.com/pytorch/fairseq/blob/master/examples/language_model/README.md#pre-trained-models | lm1b | https://github.com/pytorch/fairseq/blob/master/examples/language_model/README.md |
Nombre | Enlace | entrenado en | Guión de entrenamiento |
---|---|---|---|
XLnet | https://github.com/zihangdai/xlnet/#released-models | booksCorpus + English Wikipedia + Giga5 + ClueWeb 2012-B + Common Crawl | https://github.com/zihangdai/xlnet/ |
Nombre | Enlace | entrenado en | Guión de entrenamiento |
---|---|---|---|
roberta | https://github.com/pytorch/fairseq/tree/master/examples/roberta#pre-trained-models | librosCorpus+CC-N EWS+OpenWebText+CommonCrawl-Stories | https://github.com/huggingface/transformers |
BERT | https://github.com/google-research/bert/ | librosCorpus+Wikipedia en inglés | https://github.com/huggingface/transformers |
MT-DNN | https://mrc.blob.core.windows.net/mt-dnn-model/mt_dnn_base.pt (https://github.com/namisan/mt-dnn/blob/master/download.sh) | pegamento | https://github.com/namisan/mt-dnn |
Nombre | Enlace | entrenado en | Guión de entrenamiento |
---|---|---|---|
AbiertoNMT | http://opennmt.net/Models-py/ (pytorch) http://opennmt.net/Models-tf/ (tensorflow) | inglés-alemán | https://github.com/OpenNMT/OpenNMT-py |
Fairseq (múltiples modelos) | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md#pre-trained-models | WMT14 inglés-francés, WMT16 inglés-alemán | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md |
Nombre | Enlace | entrenado en | Guión de entrenamiento |
---|---|---|---|
Descubrimiento de sentimientos de Nvidia | https://github.com/NVIDIA/sentiment-discovery#pretrained-models | SST, imdb, Semeval-2018-tweet-emoción | https://github.com/NVIDIA/sentiment-discovery |
Sentimiento de MT-DNN | https://drive.google.com/open?id=1-ld8_WpdQVDjPeYhb3AK8XYLGlZEbs-l | SST | https://github.com/namisan/mt-dnn |
Rango | Nombre | Enlace | Guión de entrenamiento |
---|---|---|---|
49 | BiDaf | https://s3-us-west-2.amazonaws.com/allennlp/models/bidaf-model-2017.09.15-charpad.tar.gz | https://github.com/allnai/allennlp |
Modelo de resumen en inglés.
Nombre | Enlace | entrenado en | Guión de entrenamiento |
---|---|---|---|
AbiertoNMT | http://opennmt.net/Models-py/ | Estándar gigapalabra | https://github.com/OpenNMT/OpenNMT-py |
Nombre | Enlace | entrenado en | Guión de entrenamiento |
---|---|---|---|
NeMo-cuarzonet | https://ngc.nvidia.com/catalog/models/nvidia:quartznet15x5 | librispeech,mozilla-voz-común | https://github.com/NVIDIA/NeMo |
OpenSeq2Seq-Jasper | https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition.html#models | libridiscurso | https://github.com/NVIDIA/OpenSeq2Seq |
Espnet | https://github.com/espnet/espnet#asr-results | librispeech,Aishell,HKUST,TEDLIUM2 | https://github.com/espnet/espnet |
wav2letra++ | https://talonvoice.com/research/ | libridiscurso | https://github.com/facebookresearch/wav2letter |
Pytorch Deepspeech2 | SeanNaren/deepspeech.pytorch#299 (comentario) | libridiscurso | https://github.com/SeanNaren/deepspeech.pytorch |
discurso profundo | https://github.com/mozilla/DeepSpeech#getting-the-pre-trained-model | mozilla-common-voice, librispeech, fisher, centralita | https://github.com/mozilla/DeepSpeech |
voz-a-texto-wavenet | https://github.com/buriburisuri/speech-to-text-wavenet#pre-trained-models | vctk | https://github.com/buriburisuri/speech-to-text-wavenet |
a las 16k | https://github.com/at16k/at16k#download-models | N / A | N / A |
Conjuntos de datos a los que se hace referencia en este documento
http://commoncrawl.org/
Volcado de datos de Wikipedia (punto de referencia de compresión de texto grande) http://mattmahoney.net/dc/textdata.html
Texto limpio de Wikipedia (punto de referencia de compresión de texto grande) http://mattmahoney.net/dc/textdata.html
Referencia del modelo de lenguaje de mil millones de palabras https://www.statmt.org/lm-benchmark/
Wikitexto 103 https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/
Conjunto de datos original no publicado por los autores. Una colección de código abierto está disponible en https://skylion007.github.io/OpenWebTextCorpus/
https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia
https://yknzhu.wixsite.com/mbweb https://github.com/soskek/bookcorpus
Banco de árboles de sentimiento de Stanford https://nlp.stanford.edu/sentiment/index.html. Una de las tareas de pegamento.
Conjunto de datos de reseñas de películas de IMDB utilizado para la clasificación de sentimientos http://ai.stanford.edu/~amaas/data/sentiment
Conjunto de datos de emociones de tweets de Semeval 2018 https://competitions.codalab.org/competitions/17751
Glue es una colección de recursos para evaluar sistemas de lenguaje natural. https://gluebenchmark.com/ Contiene conjuntos de datos sobre inferencia del lenguaje natural, clasificación de sentimientos, detección de paráfrasis, coincidencia de similitudes y aceptabilidad lingüística.
https://pdfs.semanticscholar.org/a723/97679079439b075de815553c7b687ccfa886.pdf
www.danielpovey.com/files/2015_icassp_librispeech.pdf
https://ieeexplore.ieee.org/document/225858/
https://github.com/mozilla/voice-web
https://datashare.is.ed.ac.uk/handle/10283/2651
Investigación de alta calidad que no incluye modelos y/o códigos previamente entrenados para uso público.
Allen nlp, construido sobre pytorch, ha producido modelos SOTA y los ha abierto. https://github.com/allenai/allennlp/blob/master/MODELS.md
Tienen una demostración interactiva interesante sobre varias tareas en https://demo.allennlp.org/
Basada en MXNet, esta biblioteca tiene una lista extensa de modelos previamente entrenados en diversas tareas en PNL. http://gluon-nlp.mxnet.io/master/index.html#model-zoo