Präsentiert Korpus vorgeschulter Modelle . Links zu vorab trainierten Modellen in NLP und Sprache mit Trainingsskript.
Mit den schnellen Fortschritten im NLP wird es immer einfacher, ein maschinelles Lernprojekt mit Text zu starten. Anstatt mit einem Basiscode zu beginnen, kann man jetzt mit einem vorab trainierten Basismodell beginnen und innerhalb weniger Iterationen SOTA-Leistung erzielen. Dieses Repository wurde mit der Ansicht erstellt, dass vorab trainierte Modelle den kollektiven menschlichen Aufwand und die Ressourcenkosten minimieren und so die Entwicklung in diesem Bereich beschleunigen.
Die aufgeführten Modelle sind aufgrund ihrer breiten Verwendung entweder für Pytorch oder Tensorflow kuratiert.
Hinweis: pytorch-transofmers
ist eine großartige Bibliothek, mit der aus vielen vorab trainierten Modellen im NLP schnell Rückschlüsse gezogen/Feinabstimmungen vorgenommen werden können. Die daraus vorab trainierten Modelle sind hier nicht enthalten.
Name | Link | Ausgebildet am | Trainingsskript |
---|---|---|---|
Transformer-xl | https://github.com/kimiyoung/transformer-xl/tree/master/tf#obtain-and-evaluate-pretrained-sota-models | enwik8 , lm1b , wt103 , text8 | https://github.com/kimiyoung/transformer-xl |
GPT-2 | https://github.com/openai/gpt-2/blob/master/download_model.py | webtext | https://github.com/nshepperd/gpt-2/ |
Adaptive Eingaben (fairseq) | https://github.com/pytorch/fairseq/blob/master/examples/lingual_model/README.md#pre-trained-models | lm1b | https://github.com/pytorch/fairseq/blob/master/examples/lingual_model/README.md |
Name | Link | Ausgebildet am | Trainingsskript |
---|---|---|---|
XLnet | https://github.com/zihangdai/xlnet/#released-models | booksCorpus + English Wikipedia + Giga5 + ClueWeb 2012-B + Common Crawl | https://github.com/zihangdai/xlnet/ |
Name | Link | Ausgebildet am | Trainingsskript |
---|---|---|---|
RoBERTa | https://github.com/pytorch/fairseq/tree/master/examples/roberta#pre-trained-models | BooksCorpus+CC-N EWS+OpenWebText+CommonCrawl-Stories | https://github.com/huggingface/transformers |
BERT | https://github.com/google-research/bert/ | BücherKorpus+englische Wikipedia | https://github.com/huggingface/transformers |
MT-DNN | https://mrc.blob.core.windows.net/mt-dnn-model/mt_dnn_base.pt (https://github.com/namisan/mt-dnn/blob/master/download.sh) | Kleber | https://github.com/namisan/mt-dnn |
Name | Link | Ausgebildet am | Trainingsskript |
---|---|---|---|
OpenNMT | http://opennmt.net/Models-py/ (pytorch) http://opennmt.net/Models-tf/ (tensorflow) | Englisch-Deutsch | https://github.com/OpenNMT/OpenNMT-py |
Fairseq (mehrere Modelle) | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md#pre-trained-models | WMT14 Englisch-Französisch, WMT16 Englisch-Deutsch | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md |
Name | Link | Ausgebildet am | Trainingsskript |
---|---|---|---|
Nvidia Sentiment-Discovery | https://github.com/NVIDIA/sentiment-discovery#pretrained-models | SST, imdb, Semeval-2018-tweet-emotion | https://github.com/NVIDIA/sentiment-discovery |
MT-DNN-Stimmung | https://drive.google.com/open?id=1-ld8_WpdQVDjPeYhb3AK8XYLGlZEbs-l | SST | https://github.com/namisan/mt-dnn |
Rang | Name | Link | Trainingsskript |
---|---|---|---|
49 | BiDaf | https://s3-us-west-2.amazonaws.com/allennlp/models/bidaf-model-2017.09.15-charpad.tar.gz | https://github.com/allenai/allennlp |
Modell für die englische Zusammenfassung
Name | Link | Ausgebildet am | Trainingsskript |
---|---|---|---|
OpenNMT | http://opennmt.net/Models-py/ | Gigaword-Standard | https://github.com/OpenNMT/OpenNMT-py |
Name | Link | Ausgebildet am | Trainingsskript |
---|---|---|---|
NeMo-Quarznetz | https://ngc.nvidia.com/catalog/models/nvidia:quartznet15x5 | Librispeech, Mozilla-Common-Voice | https://github.com/NVIDIA/NeMo |
OpenSeq2Seq-Jasper | https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition.html#models | Librirede | https://github.com/NVIDIA/OpenSeq2Seq |
Espnet | https://github.com/espnet/espnet#asr-results | librispeech,Aishell,HKUST,TEDLIUM2 | https://github.com/espnet/espnet |
wav2letter++ | https://talonvoice.com/research/ | Librirede | https://github.com/facebookresearch/wav2letter |
Deepspeech2 Pytorch | SeanNaren/deepspeech.pytorch#299 (Kommentar) | Librirede | https://github.com/SeanNaren/deepspeech.pytorch |
Deepspeech | https://github.com/mozilla/DeepSpeech#getting-the-pre-trained-model | Mozilla-Common-Voice, Librispeech, Fisher, Telefonzentrale | https://github.com/mozilla/DeepSpeech |
Speech-to-Text-Wavenet | https://github.com/buriburisuri/speech-to-text-wavenet#pre-trained-models | vctk | https://github.com/buriburisuri/speech-to-text-wavenet |
bei 16k | https://github.com/at16k/at16k#download-models | N / A | N / A |
Datensätze, auf die in diesem Dokument verwiesen wird
http://commoncrawl.org/
Wikipedia-Datendump (Benchmark für die Komprimierung großer Texte) http://mattmahoney.net/dc/textdata.html
Wikipedia-bereinigter Text (Benchmark für große Textkomprimierung) http://mattmahoney.net/dc/textdata.html
1-Milliarde-Wörter-Sprachmodell-Benchmark https://www.statmt.org/lm-benchmark/
Wikitext 103 https://blog.einstein.ai/the-wikitext-long-term-dependency-lingual-modeling-dataset/
Der Originaldatensatz wurde von den Autoren nicht veröffentlicht. Eine Open-Source-Sammlung ist verfügbar unter https://skylion007.github.io/OpenWebTextCorpus/
https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-Language_Wikipedia
https://yknzhu.wixsite.com/mbweb https://github.com/soskek/bookcorpus
Stanford Sentiment Tree Bank https://nlp.stanford.edu/sentiment/index.html. Eine der Klebeaufgaben.
IMDB-Datensatz zu Filmkritiken, der für die Stimmungsklassifizierung verwendet wird: http://ai.stanford.edu/~amaas/data/sentiment
Semeval 2018 Tweet-Emotionsdatensatz https://competitions.codalab.org/competitions/17751
Glue ist eine Sammlung von Ressourcen zum Benchmarking natürlicher Sprachsysteme. https://gluebenchmark.com/ Enthält Datensätze zu natürlicher Sprachinferenz, Stimmungsklassifizierung, Paraphrasenerkennung, Ähnlichkeitsabgleich und sprachlicher Akzeptanz.
https://pdfs.semanticsscholar.org/a723/97679079439b075de815553c7b687ccfa886.pdf
www.danielpovey.com/files/2015_icassp_librispeech.pdf
https://ieeexplore.ieee.org/document/225858/
https://github.com/mozilla/voice-web
https://datashare.is.ed.ac.uk/handle/10283/2651
Hochwertige Forschung, die keine vorab trainierten Modelle und/oder Code für die öffentliche Nutzung enthält.
Basierend auf Pytorch hat allen nlp SOTA-Modelle erstellt und diese als Open Source bereitgestellt. https://github.com/allenai/allennlp/blob/master/MODELS.md
Sie haben eine nette interaktive Demo zu verschiedenen Aufgaben unter https://demo.allennlp.org/
Basierend auf MXNet verfügt diese Bibliothek über eine umfangreiche Liste vorab trainierter Modelle zu verschiedenen Aufgaben im NLP. http://gluon-nlp.mxnet.io/master/index.html#model-zoo