Представляем корпус предварительно обученных моделей . Ссылки на предварительно обученные модели в НЛП и озвучку со сценарием обучения.
Благодаря быстрому прогрессу в НЛП становится легче запустить проект машинного обучения, включающий текст. Вместо того, чтобы начинать с базового кода, теперь можно начать с предварительно обученной базовой модели и за несколько итераций получить производительность SOTA. Этот репозиторий создан с учетом того, что предварительно обученные модели сводят к минимуму коллективные человеческие усилия и стоимость ресурсов, тем самым ускоряя разработку в этой области.
Перечисленные модели курируются либо для pytorch, либо для тензорного потока из-за их широкого использования.
Примечание. pytorch-transofmers
— это замечательная библиотека, которую можно использовать для быстрого вывода/точной настройки на основе множества предварительно обученных моделей в НЛП. Предварительно обученные модели из них сюда не включены.
Имя | Связь | Обучение на | Скрипт обучения |
---|---|---|---|
Трансформер-xl | https://github.com/kimiyoung/transformer-xl/tree/master/tf#obtain-and-evaluate-pretrained-sota-models | enwik8 , lm1b , wt103 , text8 | https://github.com/kimiyoung/transformer-xl |
ГПТ-2 | https://github.com/openai/gpt-2/blob/master/download_model.py | webtext | https://github.com/nshepperd/gpt-2/ |
Адаптивные входы (fairseq) | https://github.com/pytorch/fairseq/blob/master/examples/language_model/README.md#pre-trained-models | lm1b | https://github.com/pytorch/fairseq/blob/master/examples/language_model/README.md |
Имя | Связь | Обучение на | Скрипт обучения |
---|---|---|---|
XLnet | https://github.com/zihangdai/xlnet/#released-models | booksCorpus + English Wikipedia + Giga5 + ClueWeb 2012-B + Common Crawl | https://github.com/zihangdai/xlnet/ |
Имя | Связь | Обучение на | Скрипт обучения |
---|---|---|---|
РОБЕРТа | https://github.com/pytorch/fairseq/tree/master/examples/roberta#pre-trained-models | книгиКорпус+CC-N EWS+OpenWebText+CommonCrawl-Stories | https://github.com/huggingface/transformers |
БЕРТ | https://github.com/google-research/bert/ | книгиКорпус+английская Википедия | https://github.com/huggingface/transformers |
МТ-ДНН | https://mrc.blob.core.windows.net/mt-dnn-model/mt_dnn_base.pt (https://github.com/namisan/mt-dnn/blob/master/download.sh) | клей | https://github.com/namisan/mt-dnn |
Имя | Связь | Обучение на | Скрипт обучения |
---|---|---|---|
ОпенНМТ | http://opennmt.net/Models-py/ (pytorch) http://opennmt.net/Models-tf/ (тензорный поток) | английский-немецкий | https://github.com/OpenNMT/OpenNMT-py |
Fairseq (несколько моделей) | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md#pre-trained-models | WMT14 англо-французский, WMT16 англо-немецкий | https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md |
Имя | Связь | Обучение на | Скрипт обучения |
---|---|---|---|
Открытие настроений Nvidia | https://github.com/NVIDIA/sentiment-discovery#pretrained-models | ССТ, imdb, Семевал-2018-tweet-emotion | https://github.com/NVIDIA/sentiment-discovery |
Настроение MT-DNN | https://drive.google.com/open?id=1-ld8_WpdQVDjPeYhb3AK8XYLGlZEbs-l | ССТ | https://github.com/namisan/mt-dnn |
Классифицировать | Имя | Связь | Скрипт обучения |
---|---|---|---|
49 | БиДаф | https://s3-us-west-2.amazonaws.com/allennlp/models/bidaf-model-2017.09.15-charpad.tar.gz | https://github.com/allenai/allennlp |
Модель обобщения английского языка
Имя | Связь | Обучение на | Скрипт обучения |
---|---|---|---|
ОпенНМТ | http://opennmt.net/Models-py/ | Стандарт Гигаворда | https://github.com/OpenNMT/OpenNMT-py |
Имя | Связь | Обучение на | Скрипт обучения |
---|---|---|---|
НеМо-кварцнет | https://ngc.nvidia.com/catalog/models/nvidia:quartznet15x5 | либриспич, mozilla-common-voice | https://github.com/NVIDIA/NeMo |
OpenSeq2Seq-Джаспер | https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition.html#models | либрисречь | https://github.com/NVIDIA/OpenSeq2Seq |
Эспнет | https://github.com/espnet/espnet#asr-results | либриспич,Айшелл,HKUST,TEDLIUM2 | https://github.com/espnet/espnet |
wav2letter++ | https://talonvoice.com/research/ | либрисречь | https://github.com/facebookresearch/wav2letter |
Дипспич2 | SeanNaren/deepspeech.pytorch#299 (комментарий) | либрисречь | https://github.com/SeanNaren/deepspeech.pytorch |
Глубокая речь | https://github.com/mozilla/DeepSpeech#getting-the-pre-trained-model | mozilla-common-voice, librispeech, fisher, коммутатор | https://github.com/mozilla/DeepSpeech |
преобразование речи в текст-wavenet | https://github.com/buriburisuri/speech-to-text-wavenet#pre-trained-models | вктк | https://github.com/buriburisuri/speech-to-text-wavenet |
в16к | https://github.com/at16k/at16k#download-models | NA | NA |
Наборы данных, упомянутые в этом документе
http://commoncrawl.org/
Дамп данных Википедии (тест сжатия большого текста) http://mattmahoney.net/dc/textdata.html
Очищенный текст Википедии (тест сжатия большого текста) http://mattmahoney.net/dc/textdata.html
Тест языковой модели на 1 миллиард слов https://www.statmt.org/lm-benchmark/
Викитекст 103 https://blog.einstein.ai/the-wikitext-long-term-dependent-language-modeling-dataset/
Исходный набор данных, не опубликованный авторами. Коллекция с открытым исходным кодом доступна по адресу https://skylion007.github.io/OpenWebTextCorpus/.
https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia
https://yknzhu.wixsite.com/mbweb https://github.com/soskek/bookcorpus
Стэнфордский банк деревьев настроений https://nlp.stanford.edu/sentiment/index.html. Одно из заданий Клея.
Набор данных обзоров фильмов IMDB, используемый для классификации настроений http://ai.stanford.edu/~amaas/data/sentiment
Набор данных эмоций в твитах Semeval за 2018 год https://competitions.codalab.org/competitions/17751
Glue — это набор ресурсов для сравнительного анализа систем естественного языка. https://gluebenchmark.com/ Содержит наборы данных по выводу естественного языка, классификации настроений, обнаружению перефразирования, сопоставлению сходства и языковой приемлемости.
https://pdfs.semanticscholar.org/a723/97679079439b075de815553c7b687ccfa886.pdf
www.danielpovey.com/files/2015_icassp_librispeech.pdf
https://ieeexplore.ieee.org/document/225858/
https://github.com/mozilla/voice-web
https://datashare.is.ed.ac.uk/handle/10283/2651
Высококачественные исследования, не включающие предварительно обученные модели и/или код для публичного использования.
Аллен НЛП, основанный на pytorch, создал модели SOTA и открыл их исходный код. https://github.com/allenai/allennlp/blob/master/MODELS.md
У них есть аккуратная интерактивная демонстрация по различным задачам на https://demo.allennlp.org/.
Эта библиотека, основанная на MXNet, имеет обширный список предварительно обученных моделей для различных задач НЛП. http://gluon-nlp.mxnet.io/master/index.html#model-zoo