Descarga PCPM - Descarga del código fuente PCPM

PCPM

Código Fuente de IA

1.0.0

Descargar

PCPM

Presentación del corpus de modelos preentrenados . Enlaces a modelos previamente entrenados en PNL y voz con guión de entrenamiento.

Con el rápido progreso en PNL, cada vez es más fácil iniciar un proyecto de aprendizaje automático que involucre texto. En lugar de comenzar con un código base, ahora se puede comenzar con un modelo base previamente entrenado y en unas pocas iteraciones obtener rendimiento SOTA. Este repositorio se creó con la visión de que los modelos previamente entrenados minimicen el esfuerzo humano colectivo y el costo de los recursos, acelerando así el desarrollo en el campo.

Los modelos enumerados están seleccionados para pytorch o tensorflow debido a su amplio uso.

Nota: pytorch-transofmers es una biblioteca increíble que se puede utilizar para inferir/afinar rápidamente a partir de muchos modelos previamente entrenados en PNL. Los modelos previamente entrenados no se incluyen aquí.

Contenido

Modelos de aprendizaje automático de texto
Modelos de voz a texto
Conjuntos de datos
Salón de la vergüenza
Modelos no ingleses
Otras colecciones

Texto ML

Modelos de lenguaje

Nombre	Enlace	entrenado en	Guión de entrenamiento
transformador-xl	https://github.com/kimiyoung/transformer-xl/tree/master/tf#obtain-and-evaluate-pretrained-sota-models	`enwik8` , `lm1b` , `wt103` , `text8`	https://github.com/kimiyoung/transformer-xl
GPT-2	https://github.com/openai/gpt-2/blob/master/download_model.py	`webtext`	https://github.com/nshepperd/gpt-2/
Entradas adaptativas (fairseq)	https://github.com/pytorch/fairseq/blob/master/examples/language_model/README.md#pre-trained-models	`lm1b`	https://github.com/pytorch/fairseq/blob/master/examples/language_model/README.md

Modelado de lenguaje de permutación basado en XLNet

Nombre	Enlace	entrenado en	Guión de entrenamiento
XLnet	https://github.com/zihangdai/xlnet/#released-models	`booksCorpus` + `English Wikipedia` + `Giga5` + `ClueWeb 2012-B` + `Common Crawl`	https://github.com/zihangdai/xlnet/

Basado en modelado de lenguaje enmascarado - Bert

Nombre	Enlace	entrenado en	Guión de entrenamiento
roberta	https://github.com/pytorch/fairseq/tree/master/examples/roberta#pre-trained-models	librosCorpus+CC-N EWS+OpenWebText+CommonCrawl-Stories	https://github.com/huggingface/transformers
BERT	https://github.com/google-research/bert/	librosCorpus+Wikipedia en inglés	https://github.com/huggingface/transformers
MT-DNN	https://mrc.blob.core.windows.net/mt-dnn-model/mt_dnn_base.pt (https://github.com/namisan/mt-dnn/blob/master/download.sh)	pegamento	https://github.com/namisan/mt-dnn

Traducción automática

Nombre	Enlace	entrenado en	Guión de entrenamiento
AbiertoNMT	http://opennmt.net/Models-py/ (pytorch) http://opennmt.net/Models-tf/ (tensorflow)	inglés-alemán	https://github.com/OpenNMT/OpenNMT-py
Fairseq (múltiples modelos)	https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md#pre-trained-models	WMT14 inglés-francés, WMT16 inglés-alemán	https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md

Sentimiento

Nombre	Enlace	entrenado en	Guión de entrenamiento
Descubrimiento de sentimientos de Nvidia	https://github.com/NVIDIA/sentiment-discovery#pretrained-models	SST, imdb, Semeval-2018-tweet-emoción	https://github.com/NVIDIA/sentiment-discovery
Sentimiento de MT-DNN	https://drive.google.com/open?id=1-ld8_WpdQVDjPeYhb3AK8XYLGlZEbs-l	SST	https://github.com/namisan/mt-dnn

Comprensión lectora

EQUIPO 1.1

Rango	Nombre	Enlace	Guión de entrenamiento
49	BiDaf	https://s3-us-west-2.amazonaws.com/allennlp/models/bidaf-model-2017.09.15-charpad.tar.gz	https://github.com/allnai/allennlp

Resumen

Modelo de resumen en inglés.

Nombre	Enlace	entrenado en	Guión de entrenamiento
AbiertoNMT	http://opennmt.net/Models-py/	Estándar gigapalabra	https://github.com/OpenNMT/OpenNMT-py

Voz a texto

Nombre	Enlace	entrenado en	Guión de entrenamiento
NeMo-cuarzonet	https://ngc.nvidia.com/catalog/models/nvidia:quartznet15x5	librispeech,mozilla-voz-común	https://github.com/NVIDIA/NeMo
OpenSeq2Seq-Jasper	https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition.html#models	libridiscurso	https://github.com/NVIDIA/OpenSeq2Seq
Espnet	https://github.com/espnet/espnet#asr-results	librispeech,Aishell,HKUST,TEDLIUM2	https://github.com/espnet/espnet
wav2letra++	https://talonvoice.com/research/	libridiscurso	https://github.com/facebookresearch/wav2letter
Pytorch Deepspeech2	SeanNaren/deepspeech.pytorch#299 (comentario)	libridiscurso	https://github.com/SeanNaren/deepspeech.pytorch
discurso profundo	https://github.com/mozilla/DeepSpeech#getting-the-pre-trained-model	mozilla-common-voice, librispeech, fisher, centralita	https://github.com/mozilla/DeepSpeech
voz-a-texto-wavenet	https://github.com/buriburisuri/speech-to-text-wavenet#pre-trained-models	vctk	https://github.com/buriburisuri/speech-to-text-wavenet
a las 16k	https://github.com/at16k/at16k#download-models	N / A	N / A

Conjuntos de datos

Conjuntos de datos a los que se hace referencia en este documento

Datos del modelo de lenguaje

rastreo común

http://commoncrawl.org/

enwik8

Volcado de datos de Wikipedia (punto de referencia de compresión de texto grande) http://mattmahoney.net/dc/textdata.html

texto8

Texto limpio de Wikipedia (punto de referencia de compresión de texto grande) http://mattmahoney.net/dc/textdata.html

lm1b

Referencia del modelo de lenguaje de mil millones de palabras https://www.statmt.org/lm-benchmark/

wt103

Wikitexto 103 https://blog.einstein.ai/the-wikitext-long-term-dependency-language-modeling-dataset/

texto web

Conjunto de datos original no publicado por los autores. Una colección de código abierto está disponible en https://skylion007.github.io/OpenWebTextCorpus/

Wikipedia en inglés

https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-language_Wikipedia

LibrosCorpus

https://yknzhu.wixsite.com/mbweb https://github.com/soskek/bookcorpus

Sentimiento

SST

Banco de árboles de sentimiento de Stanford https://nlp.stanford.edu/sentiment/index.html. Una de las tareas de pegamento.

IMDB

Conjunto de datos de reseñas de películas de IMDB utilizado para la clasificación de sentimientos http://ai.stanford.edu/~amaas/data/sentiment

Semeval2018te

Conjunto de datos de emociones de tweets de Semeval 2018 https://competitions.codalab.org/competitions/17751

Pegamento

Glue es una colección de recursos para evaluar sistemas de lenguaje natural. https://gluebenchmark.com/ Contiene conjuntos de datos sobre inferencia del lenguaje natural, clasificación de sentimientos, detección de paráfrasis, coincidencia de similitudes y aceptabilidad lingüística.

Datos de voz a texto

pescador

https://pdfs.semanticscholar.org/a723/97679079439b075de815553c7b687ccfa886.pdf

libridiscurso

www.danielpovey.com/files/2015_icassp_librispeech.pdf

tablero de conmutadores

https://ieeexplore.ieee.org/document/225858/

Voz común de Mozilla

https://github.com/mozilla/voice-web

vctk

https://datashare.is.ed.ac.uk/handle/10283/2651

Salón de la vergüenza

Investigación de alta calidad que no incluye modelos y/o códigos previamente entrenados para uso público.

KERMIT https://arxiv.org/abs/1906.01604 Modelado generativo basado en inserción para secuencias. Sin código.

No inglés

Otras colecciones

PNL

Allen nlp, construido sobre pytorch, ha producido modelos SOTA y los ha abierto. https://github.com/allenai/allennlp/blob/master/MODELS.md

Tienen una demostración interactiva interesante sobre varias tareas en https://demo.allennlp.org/

GluónPNL

Basada en MXNet, esta biblioteca tiene una lista extensa de modelos previamente entrenados en diversas tareas en PNL. http://gluon-nlp.mxnet.io/master/index.html#model-zoo

Expandir

Información adicional

Versión 1.0.0
Tipo Código Fuente de IA
Fecha de actualización 2024-12-31
tamaño 50MB
Proviene de Github

Aplicaciones relacionadas

node telegram bot api

2024-12-14
typebot.io

2024-12-14
python wechaty getting started

2024-12-14
TranscriberBot

2024-12-14
genal chat

2024-12-14
Facemoji

2024-12-14

Recomendado para ti

chat.petals.dev

Otro código fuente

1.0.0
GPT Prompt Templates

Otro código fuente

1.0.0
GPTyped

Otro código fuente

GPTyped 1.0.5
node telegram bot api

Código Fuente de IA

v0.50.0
typebot.io

Código Fuente de IA

v3.1.2
python wechaty getting started

Código Fuente de IA

1.0.0
waymo open dataset

Otro código fuente

December 2023 Update
termwind

Otras categorias

v2.3.0
wp functions

Otras categorias

1.0.0

Información relacionada Todo