Présentation d' un corpus de modèles pré -entraînés. Liens vers des modèles pré-entraînés en PNL et voix avec script de formation.
Avec les progrès rapides de la PNL, il devient plus facile de démarrer un projet d'apprentissage automatique impliquant du texte. Au lieu de commencer avec un code de base, on peut désormais commencer avec un modèle de base pré-entraîné et en quelques itérations obtenir des performances SOTA. Ce référentiel est conçu dans l'optique que les modèles pré-entraînés minimisent l'effort humain collectif et le coût des ressources, accélérant ainsi le développement dans le domaine.
Les modèles répertoriés sont sélectionnés pour pytorch ou tensorflow en raison de leur large utilisation.
Remarque : pytorch-transofmers
est une bibliothèque géniale qui peut être utilisée pour déduire/affiner rapidement de nombreux modèles pré-entraînés en PNL. Les modèles pré-entraînés parmi ceux-ci ne sont pas inclus ici.
Nom | Lien | Formé sur | Scénario de formation |
---|---|---|---|
Transformateur-xl | https://github.com/kimiyoung/transformer-xl/tree/master/tf#obtain-and-evaluate-pretrained-sota-models | enwik8 , lm1b , wt103 , text8 | https://github.com/kimiyoung/transformer-xl |
GPT-2 | https://github.com/openai/gpt-2/blob/master/download_model.py | webtext | https://github.com/nshepperd/gpt-2/ |
Entrées adaptatives (fairseq) | https://github.com/pytorch/fairseq/blob/master/examples/lingual_model/README.md#pre-trained-models | lm1b | https://github.com/pytorch/fairseq/blob/master/examples/lingual_model/README.md |
Nom | Lien | Formé sur | Scénario de formation |
---|---|---|---|
XLnet | https://github.com/zihangdai/xlnet/#released-models | booksCorpus + English Wikipedia + Giga5 + ClueWeb 2012-B + Common Crawl | https://github.com/zihangdai/xlnet/ |
Nom | Lien | Formé sur | Scénario de formation |
---|---|---|---|
RoBERTa | https://github.com/pytorch/fairseq/tree/master/examples/roberta#pre-trained-models | livresCorpus+CC-N EWS+OpenWebText+CommonCrawl-Stories | https://github.com/huggingface/transformers |
BERTE | https://github.com/google-research/bert/ | livresCorpus+Wikipédia anglais | https://github.com/huggingface/transformers |
MT-DNN | https://mrc.blob.core.windows.net/mt-dnn-model/mt_dnn_base.pt (https://github.com/namisan/mt-dnn/blob/master/download.sh) | colle | https://github.com/namisan/mt-dnn |
Nom | Lien | Formé sur | Scénario de formation |
---|---|---|---|
OuvrirNMT | http://opennmt.net/Models-py/ (pytorch) http://opennmt.net/Models-tf/ (tensorflow) | Anglais-Allemand | https://github.com/OpenNMT/OpenNMT-py |
Fairseq (plusieurs modèles) | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md#pre-trained-models | WMT14 anglais-français, WMT16 anglais-allemand | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md |
Nom | Lien | Formé sur | Scénario de formation |
---|---|---|---|
Découverte du sentiment Nvidia | https://github.com/NVIDIA/sentiment-discovery#pretrained-models | SST, imdb, Semeval-2018-tweet-emotion | https://github.com/NVIDIA/sentiment-discovery |
Sentiment MT-DNN | https://drive.google.com/open?id=1-ld8_WpdQVDjPeYhb3AK8XYLGlZEbs-l | SST | https://github.com/namisan/mt-dnn |
Rang | Nom | Lien | Scénario de formation |
---|---|---|---|
49 | BiDaf | https://s3-us-west-2.amazonaws.com/allennlp/models/bidaf-model-2017.09.15-charpad.tar.gz | https://github.com/allenai/allennlp |
Modèle de résumé en anglais
Nom | Lien | Formé sur | Scénario de formation |
---|---|---|---|
OuvrirNMT | http://opennmt.net/Models-py/ | Norme gigaword | https://github.com/OpenNMT/OpenNMT-py |
Nom | Lien | Formé sur | Scénario de formation |
---|---|---|---|
NeMo-quartznet | https://ngc.nvidia.com/catalog/models/nvidia:quartznet15x5 | librispeech, mozilla-common-voix | https://github.com/NVIDIA/NeMo |
OpenSeq2Seq-Jasper | https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition.html#models | librisdiscours | https://github.com/NVIDIA/OpenSeq2Seq |
Espnet | https://github.com/espnet/espnet#asr-results | librispeech, Aishell, HKUST, TEDLIUM2 | https://github.com/espnet/espnet |
wav2lettre++ | https://talonvoice.com/research/ | librisdiscours | https://github.com/facebookresearch/wav2letter |
Pytorche Deepspeech2 | SeanNaren/deepspeech.pytorch#299 (commentaire) | librisdiscours | https://github.com/SeanNaren/deepspeech.pytorch |
Discours profond | https://github.com/mozilla/DeepSpeech#getting-the-pre-trained-model | mozilla-common-voice, librispeech, pêcheur, standard | https://github.com/mozilla/DeepSpeech |
synthèse vocale-wavenet | https://github.com/buriburisuri/speech-to-text-wavenet#pre-trained-models | vctk | https://github.com/buriburisuri/speech-to-text-wavenet |
à 16k | https://github.com/at16k/at16k#download-models | N / A | N / A |
Ensembles de données référencés dans ce document
http://commoncrawl.org/
Dump de données Wikipédia (test de compression de texte volumineux) http://mattmahoney.net/dc/textdata.html
Texte nettoyé par Wikipédia (test de compression de texte volumineux) http://mattmahoney.net/dc/textdata.html
Référence du modèle de langage de 1 milliard de mots https://www.statmt.org/lm-benchmark/
Wikitexte 103 https://blog.einstein.ai/the-wikitext-long-term-dependency-lingual-modeling-dataset/
Ensemble de données original non publié par les auteurs. Une collection open source est disponible sur https://skylion007.github.io/OpenWebTextCorpus/
https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-lingual_Wikipedia
https://yknzhu.wixsite.com/mbweb https://github.com/soskek/bookcorpus
Banque d'arbres de sentiments de Stanford https://nlp.stanford.edu/sentiment/index.html. Une des tâches Glue.
Ensemble de données de critiques de films IMDB utilisé pour la classification des sentiments http://ai.stanford.edu/~amaas/data/sentiment
Ensemble de données sur les émotions des tweets Semeval 2018 https://competitions.codalab.org/competitions/17751
Glue est une collection de ressources pour évaluer les systèmes de langage naturel. https://gluebenchmark.com/ Contient des ensembles de données sur l'inférence du langage naturel, la classification des sentiments, la détection de paraphrase, la correspondance de similarité et l'acceptabilité linguistique.
https://pdfs.semanticscholar.org/a723/97679079439b075de815553c7b687ccfa886.pdf
www.danielpovey.com/files/2015_icassp_librispeech.pdf
https://ieeexplore.ieee.org/document/225858/
https://github.com/mozilla/voice-web
https://datashare.is.ed.ac.uk/handle/10283/2651
Recherche de haute qualité qui n'inclut pas de modèles et/ou de codes pré-entraînés à usage public.
Construit sur pytorch, allen nlp a produit des modèles SOTA et les a open source. https://github.com/allenai/allennlp/blob/master/MODELS.md
Ils ont une démo interactive intéressante sur diverses tâches sur https://demo.allennlp.org/
Basée sur MXNet, cette bibliothèque contient une liste complète de modèles pré-entraînés sur diverses tâches en PNL. http://gluon-nlp.mxnet.io/master/index.html#model-zoo