Téléchargement PCPM - Téléchargement du code source PCPM

PCPM

Code Source AI

1.0.0

Télécharger

PCPM

Présentation d' un corpus de modèles pré -entraînés. Liens vers des modèles pré-entraînés en PNL et voix avec script de formation.

Avec les progrès rapides de la PNL, il devient plus facile de démarrer un projet d'apprentissage automatique impliquant du texte. Au lieu de commencer avec un code de base, on peut désormais commencer avec un modèle de base pré-entraîné et en quelques itérations obtenir des performances SOTA. Ce référentiel est conçu dans l'optique que les modèles pré-entraînés minimisent l'effort humain collectif et le coût des ressources, accélérant ainsi le développement dans le domaine.

Les modèles répertoriés sont sélectionnés pour pytorch ou tensorflow en raison de leur large utilisation.

Remarque : pytorch-transofmers est une bibliothèque géniale qui peut être utilisée pour déduire/affiner rapidement de nombreux modèles pré-entraînés en PNL. Les modèles pré-entraînés parmi ceux-ci ne sont pas inclus ici.

Contenu

Modèles de ML de texte
Modèles de parole en texte
Ensembles de données
Salle de la honte
Modèles non anglais
Autres collections

Texte ML

Modèles de langage

Nom	Lien	Formé sur	Scénario de formation
Transformateur-xl	https://github.com/kimiyoung/transformer-xl/tree/master/tf#obtain-and-evaluate-pretrained-sota-models	`enwik8` , `lm1b` , `wt103` , `text8`	https://github.com/kimiyoung/transformer-xl
GPT-2	https://github.com/openai/gpt-2/blob/master/download_model.py	`webtext`	https://github.com/nshepperd/gpt-2/
Entrées adaptatives (fairseq)	https://github.com/pytorch/fairseq/blob/master/examples/lingual_model/README.md#pre-trained-models	`lm1b`	https://github.com/pytorch/fairseq/blob/master/examples/lingual_model/README.md

Basé sur la modélisation du langage de permutation - XLNet

Nom	Lien	Formé sur	Scénario de formation
XLnet	https://github.com/zihangdai/xlnet/#released-models	`booksCorpus` + `English Wikipedia` + `Giga5` + `ClueWeb 2012-B` + `Common Crawl`	https://github.com/zihangdai/xlnet/

Basé sur la modélisation du langage masqué - Bert

Nom	Lien	Formé sur	Scénario de formation
RoBERTa	https://github.com/pytorch/fairseq/tree/master/examples/roberta#pre-trained-models	livresCorpus+CC-N EWS+OpenWebText+CommonCrawl-Stories	https://github.com/huggingface/transformers
BERTE	https://github.com/google-research/bert/	livresCorpus+Wikipédia anglais	https://github.com/huggingface/transformers
MT-DNN	https://mrc.blob.core.windows.net/mt-dnn-model/mt_dnn_base.pt (https://github.com/namisan/mt-dnn/blob/master/download.sh)	colle	https://github.com/namisan/mt-dnn

Traduction automatique

Nom	Lien	Formé sur	Scénario de formation
OuvrirNMT	http://opennmt.net/Models-py/ (pytorch) http://opennmt.net/Models-tf/ (tensorflow)	Anglais-Allemand	https://github.com/OpenNMT/OpenNMT-py
Fairseq (plusieurs modèles)	https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md#pre-trained-models	WMT14 anglais-français, WMT16 anglais-allemand	https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md

Sentiment

Nom	Lien	Formé sur	Scénario de formation
Découverte du sentiment Nvidia	https://github.com/NVIDIA/sentiment-discovery#pretrained-models	SST, imdb, Semeval-2018-tweet-emotion	https://github.com/NVIDIA/sentiment-discovery
Sentiment MT-DNN	https://drive.google.com/open?id=1-ld8_WpdQVDjPeYhb3AK8XYLGlZEbs-l	SST	https://github.com/namisan/mt-dnn

Compréhension écrite

ESCOUADE 1.1

Rang	Nom	Lien	Scénario de formation
49	BiDaf	https://s3-us-west-2.amazonaws.com/allennlp/models/bidaf-model-2017.09.15-charpad.tar.gz	https://github.com/allenai/allennlp

Récapitulation

Modèle de résumé en anglais

Nom	Lien	Formé sur	Scénario de formation
OuvrirNMT	http://opennmt.net/Models-py/	Norme gigaword	https://github.com/OpenNMT/OpenNMT-py

Parole en texte

Nom	Lien	Formé sur	Scénario de formation
NeMo-quartznet	https://ngc.nvidia.com/catalog/models/nvidia:quartznet15x5	librispeech, mozilla-common-voix	https://github.com/NVIDIA/NeMo
OpenSeq2Seq-Jasper	https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition.html#models	librisdiscours	https://github.com/NVIDIA/OpenSeq2Seq
Espnet	https://github.com/espnet/espnet#asr-results	librispeech, Aishell, HKUST, TEDLIUM2	https://github.com/espnet/espnet
wav2lettre++	https://talonvoice.com/research/	librisdiscours	https://github.com/facebookresearch/wav2letter
Pytorche Deepspeech2	SeanNaren/deepspeech.pytorch#299 (commentaire)	librisdiscours	https://github.com/SeanNaren/deepspeech.pytorch
Discours profond	https://github.com/mozilla/DeepSpeech#getting-the-pre-trained-model	mozilla-common-voice, librispeech, pêcheur, standard	https://github.com/mozilla/DeepSpeech
synthèse vocale-wavenet	https://github.com/buriburisuri/speech-to-text-wavenet#pre-trained-models	vctk	https://github.com/buriburisuri/speech-to-text-wavenet
à 16k	https://github.com/at16k/at16k#download-models	N / A	N / A

Ensembles de données

Ensembles de données référencés dans ce document

Données du modèle de langage

Analyse commune

http://commoncrawl.org/

frwik8

Dump de données Wikipédia (test de compression de texte volumineux) http://mattmahoney.net/dc/textdata.html

texte8

Texte nettoyé par Wikipédia (test de compression de texte volumineux) http://mattmahoney.net/dc/textdata.html

lm1b

Référence du modèle de langage de 1 milliard de mots https://www.statmt.org/lm-benchmark/

wt103

Wikitexte 103 https://blog.einstein.ai/the-wikitext-long-term-dependency-lingual-modeling-dataset/

texte Web

Ensemble de données original non publié par les auteurs. Une collection open source est disponible sur https://skylion007.github.io/OpenWebTextCorpus/

Wikipédia anglais

https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-lingual_Wikipedia

LivresCorpus

https://yknzhu.wixsite.com/mbweb https://github.com/soskek/bookcorpus

Sentiment

SST

Banque d'arbres de sentiments de Stanford https://nlp.stanford.edu/sentiment/index.html. Une des tâches Glue.

BDIM

Ensemble de données de critiques de films IMDB utilisé pour la classification des sentiments http://ai.stanford.edu/~amaas/data/sentiment

Semeval2018te

Ensemble de données sur les émotions des tweets Semeval 2018 https://competitions.codalab.org/competitions/17751

Colle

Glue est une collection de ressources pour évaluer les systèmes de langage naturel. https://gluebenchmark.com/ Contient des ensembles de données sur l'inférence du langage naturel, la classification des sentiments, la détection de paraphrase, la correspondance de similarité et l'acceptabilité linguistique.

Données vocales en texte

pêcheur

https://pdfs.semanticscholar.org/a723/97679079439b075de815553c7b687ccfa886.pdf

librisdiscours

www.danielpovey.com/files/2015_icassp_librispeech.pdf

standard

https://ieeexplore.ieee.org/document/225858/

Voix commune de Mozilla

https://github.com/mozilla/voice-web

vctk

https://datashare.is.ed.ac.uk/handle/10283/2651

Salle de la honte

Recherche de haute qualité qui n'inclut pas de modèles et/ou de codes pré-entraînés à usage public.

KERMIT https://arxiv.org/abs/1906.01604 Modélisation générative basée sur l'insertion pour les séquences. Aucun code.

Non anglais

Autres collections

Allen PNL

Construit sur pytorch, allen nlp a produit des modèles SOTA et les a open source. https://github.com/allenai/allennlp/blob/master/MODELS.md

Ils ont une démo interactive intéressante sur diverses tâches sur https://demo.allennlp.org/

GluonNLP

Basée sur MXNet, cette bibliothèque contient une liste complète de modèles pré-entraînés sur diverses tâches en PNL. http://gluon-nlp.mxnet.io/master/index.html#model-zoo

Développer

Informations supplémentaires

Version 1.0.0
Type Code Source AI
Date de mise à jour 2024-12-31
taille 50MB
Provenant de Github

Applications connexes

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recommandé pour vous

chat.petals.dev

Autre code source

1.0.0
GPT Prompt Templates

Autre code source

1.0.0
GPTyped

Autre code source

GPTyped 1.0.5
node telegram bot api

Code Source AI

v0.50.0
typebot.io

Code Source AI

v3.1.2
python wechaty getting started

Code Source AI

1.0.0
waymo open dataset

Autre code source

December 2023 Update
termwind

Autres catégories

v2.3.0
wp functions

Autres catégories

1.0.0

Actualités connexes Tout