PCPM -Download – PCPM Quellcode-Download

PCPM

AI-Quellcode

1.0.0

Herunterladen

PCPM

Präsentiert Korpus vorgeschulter Modelle . Links zu vorab trainierten Modellen in NLP und Sprache mit Trainingsskript.

Mit den schnellen Fortschritten im NLP wird es immer einfacher, ein maschinelles Lernprojekt mit Text zu starten. Anstatt mit einem Basiscode zu beginnen, kann man jetzt mit einem vorab trainierten Basismodell beginnen und innerhalb weniger Iterationen SOTA-Leistung erzielen. Dieses Repository wurde mit der Ansicht erstellt, dass vorab trainierte Modelle den kollektiven menschlichen Aufwand und die Ressourcenkosten minimieren und so die Entwicklung in diesem Bereich beschleunigen.

Die aufgeführten Modelle sind aufgrund ihrer breiten Verwendung entweder für Pytorch oder Tensorflow kuratiert.

Hinweis: pytorch-transofmers ist eine großartige Bibliothek, mit der aus vielen vorab trainierten Modellen im NLP schnell Rückschlüsse gezogen/Feinabstimmungen vorgenommen werden können. Die daraus vorab trainierten Modelle sind hier nicht enthalten.

Inhalt

Text-ML-Modelle
Speech-to-Text-Modelle
Datensätze
Halle der Schande
Nicht englische Modelle
Andere Sammlungen

Text ML

Sprachmodelle

Name	Link	Ausgebildet am	Trainingsskript
Transformer-xl	https://github.com/kimiyoung/transformer-xl/tree/master/tf#obtain-and-evaluate-pretrained-sota-models	`enwik8` , `lm1b` , `wt103` , `text8`	https://github.com/kimiyoung/transformer-xl
GPT-2	https://github.com/openai/gpt-2/blob/master/download_model.py	`webtext`	https://github.com/nshepperd/gpt-2/
Adaptive Eingaben (fairseq)	https://github.com/pytorch/fairseq/blob/master/examples/lingual_model/README.md#pre-trained-models	`lm1b`	https://github.com/pytorch/fairseq/blob/master/examples/lingual_model/README.md

Permutationsbasierte Sprachmodellierung – XLNet

Name	Link	Ausgebildet am	Trainingsskript
XLnet	https://github.com/zihangdai/xlnet/#released-models	`booksCorpus` + `English Wikipedia` + `Giga5` + `ClueWeb 2012-B` + `Common Crawl`	https://github.com/zihangdai/xlnet/

Basierend auf maskierter Sprachmodellierung – Bert

Name	Link	Ausgebildet am	Trainingsskript
RoBERTa	https://github.com/pytorch/fairseq/tree/master/examples/roberta#pre-trained-models	BooksCorpus+CC-N EWS+OpenWebText+CommonCrawl-Stories	https://github.com/huggingface/transformers
BERT	https://github.com/google-research/bert/	BücherKorpus+englische Wikipedia	https://github.com/huggingface/transformers
MT-DNN	https://mrc.blob.core.windows.net/mt-dnn-model/mt_dnn_base.pt (https://github.com/namisan/mt-dnn/blob/master/download.sh)	Kleber	https://github.com/namisan/mt-dnn

Maschinelle Übersetzung

Name	Link	Ausgebildet am	Trainingsskript
OpenNMT	http://opennmt.net/Models-py/ (pytorch) http://opennmt.net/Models-tf/ (tensorflow)	Englisch-Deutsch	https://github.com/OpenNMT/OpenNMT-py
Fairseq (mehrere Modelle)	https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md#pre-trained-models	WMT14 Englisch-Französisch, WMT16 Englisch-Deutsch	https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md

Gefühl

Name	Link	Ausgebildet am	Trainingsskript
Nvidia Sentiment-Discovery	https://github.com/NVIDIA/sentiment-discovery#pretrained-models	SST, imdb, Semeval-2018-tweet-emotion	https://github.com/NVIDIA/sentiment-discovery
MT-DNN-Stimmung	https://drive.google.com/open?id=1-ld8_WpdQVDjPeYhb3AK8XYLGlZEbs-l	SST	https://github.com/namisan/mt-dnn

Leseverständnis

Trupp 1.1

Rang	Name	Link	Trainingsskript
49	BiDaf	https://s3-us-west-2.amazonaws.com/allennlp/models/bidaf-model-2017.09.15-charpad.tar.gz	https://github.com/allenai/allennlp

Zusammenfassung

Modell für die englische Zusammenfassung

Name	Link	Ausgebildet am	Trainingsskript
OpenNMT	http://opennmt.net/Models-py/	Gigaword-Standard	https://github.com/OpenNMT/OpenNMT-py

Sprache zum Text

Name	Link	Ausgebildet am	Trainingsskript
NeMo-Quarznetz	https://ngc.nvidia.com/catalog/models/nvidia:quartznet15x5	Librispeech, Mozilla-Common-Voice	https://github.com/NVIDIA/NeMo
OpenSeq2Seq-Jasper	https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition.html#models	Librirede	https://github.com/NVIDIA/OpenSeq2Seq
Espnet	https://github.com/espnet/espnet#asr-results	librispeech,Aishell,HKUST,TEDLIUM2	https://github.com/espnet/espnet
wav2letter++	https://talonvoice.com/research/	Librirede	https://github.com/facebookresearch/wav2letter
Deepspeech2 Pytorch	SeanNaren/deepspeech.pytorch#299 (Kommentar)	Librirede	https://github.com/SeanNaren/deepspeech.pytorch
Deepspeech	https://github.com/mozilla/DeepSpeech#getting-the-pre-trained-model	Mozilla-Common-Voice, Librispeech, Fisher, Telefonzentrale	https://github.com/mozilla/DeepSpeech
Speech-to-Text-Wavenet	https://github.com/buriburisuri/speech-to-text-wavenet#pre-trained-models	vctk	https://github.com/buriburisuri/speech-to-text-wavenet
bei 16k	https://github.com/at16k/at16k#download-models	N / A	N / A

Datensätze

Datensätze, auf die in diesem Dokument verwiesen wird

Sprachmodelldaten

Gemeinsames Kriechen

http://commoncrawl.org/

enwik8

Wikipedia-Datendump (Benchmark für die Komprimierung großer Texte) http://mattmahoney.net/dc/textdata.html

Text8

Wikipedia-bereinigter Text (Benchmark für große Textkomprimierung) http://mattmahoney.net/dc/textdata.html

lm1b

1-Milliarde-Wörter-Sprachmodell-Benchmark https://www.statmt.org/lm-benchmark/

wt103

Wikitext 103 https://blog.einstein.ai/the-wikitext-long-term-dependency-lingual-modeling-dataset/

Webtext

Der Originaldatensatz wurde von den Autoren nicht veröffentlicht. Eine Open-Source-Sammlung ist verfügbar unter https://skylion007.github.io/OpenWebTextCorpus/

Englische Wikipedia

https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-Language_Wikipedia

BooksCorpus

https://yknzhu.wixsite.com/mbweb https://github.com/soskek/bookcorpus

Gefühl

SST

Stanford Sentiment Tree Bank https://nlp.stanford.edu/sentiment/index.html. Eine der Klebeaufgaben.

IMDB

IMDB-Datensatz zu Filmkritiken, der für die Stimmungsklassifizierung verwendet wird: http://ai.stanford.edu/~amaas/data/sentiment

Halbjahr 2018

Semeval 2018 Tweet-Emotionsdatensatz https://competitions.codalab.org/competitions/17751

Kleber

Glue ist eine Sammlung von Ressourcen zum Benchmarking natürlicher Sprachsysteme. https://gluebenchmark.com/ Enthält Datensätze zu natürlicher Sprachinferenz, Stimmungsklassifizierung, Paraphrasenerkennung, Ähnlichkeitsabgleich und sprachlicher Akzeptanz.

Sprache in Textdaten umwandeln

Fischer

https://pdfs.semanticsscholar.org/a723/97679079439b075de815553c7b687ccfa886.pdf

Librirede

www.danielpovey.com/files/2015_icassp_librispeech.pdf

Telefonzentrale

https://ieeexplore.ieee.org/document/225858/

Gemeinsame Mozilla-Stimme

https://github.com/mozilla/voice-web

vctk

https://datashare.is.ed.ac.uk/handle/10283/2651

Halle der Schande

Hochwertige Forschung, die keine vorab trainierten Modelle und/oder Code für die öffentliche Nutzung enthält.

KERMIT https://arxiv.org/abs/1906.01604 Generative einfügungsbasierte Modellierung für Sequenzen. Kein Code.

Kein Englisch

Andere Sammlungen

Allen NLP

Basierend auf Pytorch hat allen nlp SOTA-Modelle erstellt und diese als Open Source bereitgestellt. https://github.com/allenai/allennlp/blob/master/MODELS.md

Sie haben eine nette interaktive Demo zu verschiedenen Aufgaben unter https://demo.allennlp.org/

GluonNLP

Basierend auf MXNet verfügt diese Bibliothek über eine umfangreiche Liste vorab trainierter Modelle zu verschiedenen Aufgaben im NLP. http://gluon-nlp.mxnet.io/master/index.html#model-zoo

Expandieren

Zusätzliche Informationen

Version 1.0.0
Typ AI-Quellcode
Aktualisierungszeit 2024-12-31
Größe 50MB
Kommt von Github

Ähnliche Anwendungen

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14