ดาวน์โหลด PCPM - ดาวน์โหลดซอร์สโค้ด PCPM

PCPM

โค้ดแหล่งที่มา AI

1.0.0

ดาวน์โหลด

PCPM

P ไม่พอใจ C orpus ของ P ที่ได้รับการฝึกฝน M odels ลิงก์ไปยังโมเดลที่ได้รับการฝึกล่วงหน้าใน NLP และเสียงพร้อมสคริปต์การฝึกอบรม

ด้วยความก้าวหน้าอย่างรวดเร็วใน NLP การบูตโปรเจ็กต์แมชชีนเลิร์นนิงที่เกี่ยวข้องกับข้อความจึงกลายเป็นเรื่องง่ายยิ่งขึ้น แทนที่จะเริ่มต้นด้วยโค้ดพื้นฐาน ตอนนี้เราสามารถเริ่มต้นด้วยโมเดลพื้นฐานที่ได้รับการฝึกล่วงหน้า และภายในไม่กี่รอบ จะได้รับประสิทธิภาพของ SOTA พื้นที่เก็บข้อมูลนี้สร้างขึ้นด้วยมุมมองที่ว่าแบบจำลองที่ได้รับการฝึกอบรมมาล่วงหน้าจะช่วยลดความพยายามของมนุษย์โดยรวมและต้นทุนทรัพยากรให้เหลือน้อยที่สุด ซึ่งจะช่วยเร่งการพัฒนาในภาคสนาม

โมเดลที่อยู่ในรายการได้รับการดูแลจัดการสำหรับ pytorch หรือ tensorflow เนื่องจากมีการใช้งานอย่างกว้างขวาง

หมายเหตุ: pytorch-transofmers เป็นไลบรารีที่ยอดเยี่ยมซึ่งสามารถใช้เพื่ออนุมาน/ปรับแต่งอย่างรวดเร็วจากโมเดลที่ได้รับการฝึกล่วงหน้าจำนวนมากใน NLP ไม่รวมโมเดลที่ได้รับการฝึกล่วงหน้าจากโมเดลเหล่านั้นไว้ที่นี่

สารบัญ

ข้อความโมเดล ML
โมเดลคำพูดเป็นข้อความ
ชุดข้อมูล
ห้องโถงแห่งความอัปยศ
โมเดลที่ไม่ใช่ภาษาอังกฤษ
คอลเลกชันอื่น ๆ

ส่งข้อความถึง ม.ล

โมเดลภาษา

ชื่อ	ลิงค์	อบรมแล้ว	สคริปต์การฝึกอบรม
หม้อแปลง-xl	https://github.com/kimiyoung/transformer-xl/tree/master/tf#obtain-and-evaluate-pretrained-sota-models	`enwik8` , `lm1b` , `wt103` , `text8`	https://github.com/kimiyoung/transformer-xl
GPT-2	https://github.com/openai/gpt-2/blob/master/download_model.py	`webtext`	https://github.com/nshepperd/gpt-2/
อินพุตแบบอะแดปทีฟ (fairseq)	https://github.com/pytorch/fairseq/blob/master/examples/ language_model/README.md#pre-trained-models	`lm1b`	https://github.com/pytorch/fairseq/blob/master/examples/ language_model/README.md

การสร้างแบบจำลองการเรียงสับเปลี่ยนตาม - XLNet

ชื่อ	ลิงค์	อบรมแล้ว	สคริปต์การฝึกอบรม
XLnet	https://github.com/zihangdai/xlnet/#released-models	`booksCorpus` + `English Wikipedia` + `Giga5` + `ClueWeb 2012-B` + `Common Crawl`	https://github.com/zihangdai/xlnet/

การสร้างแบบจำลองภาษามาสก์ - เบิร์ต

ชื่อ	ลิงค์	อบรมแล้ว	สคริปต์การฝึกอบรม
โรเบอร์ต้า	https://github.com/pytorch/fairseq/tree/master/examples/roberta#pre-trained-models	หนังสือCorpus+CC-N EWS+OpenWebText+CommonCrawl-Stories	https://github.com/huggingface/transformers
เบิร์ต	https://github.com/google-research/bert/	หนังสือคอร์ปัส+วิกิพีเดียภาษาอังกฤษ	https://github.com/huggingface/transformers
MT-DNN	https://mrc.blob.core.windows.net/mt-dnn-model/mt_dnn_base.pt (https://github.com/namisan/mt-dnn/blob/master/download.sh)	กาว	https://github.com/namisan/mt-dnn

การแปลด้วยเครื่อง

ชื่อ	ลิงค์	อบรมแล้ว	สคริปต์การฝึกอบรม
OpenNMT	http://opennmt.net/Models-py/ (ไพทอร์ช) http://opennmt.net/Models-tf/ (เทนเซอร์โฟลว์)	อังกฤษ-เยอรมัน	https://github.com/OpenNMT/OpenNMT-py
Fairseq (หลายรุ่น)	https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md#pre-trained-models	WMT14 อังกฤษ-ฝรั่งเศส, WMT16 อังกฤษ-เยอรมัน	https://github.com/pytorch/fairseq/blob/master/examples/translation/README.md

ความรู้สึก

ชื่อ	ลิงค์	อบรมแล้ว	สคริปต์การฝึกอบรม
การค้นพบความรู้สึกของ Nvidia	https://github.com/NVIDIA/sentiment-discovery#pretrained-models	SST, imdb, Semeval-2018-ทวีต-อารมณ์	https://github.com/NVIDIA/sentiment-discovery
ความรู้สึกของ MT-DNN	https://drive.google.com/open?id=1-ld8_WpdQVDjPeYhb3AK8XYLGlZEbs-l	สวท	https://github.com/namisan/mt-dnn

การอ่านเพื่อความเข้าใจ

ทีม 1.1

อันดับ	ชื่อ	ลิงค์	สคริปต์การฝึกอบรม
49	บีดาฟ	https://s3-us-west-2.amazonaws.com/allennlp/models/bidaf-model-2017.09.15-charpad.tar.gz	https://github.com/allenai/allennlp

การสรุป

รูปแบบการสรุปภาษาอังกฤษ

ชื่อ	ลิงค์	อบรมแล้ว	สคริปต์การฝึกอบรม
OpenNMT	http://opennmt.net/Models-py/	มาตรฐานกิกะเวิร์ด	https://github.com/OpenNMT/OpenNMT-py

พูดเป็นข้อความ

ชื่อ	ลิงค์	อบรมแล้ว	สคริปต์การฝึกอบรม
NeMo-ควอตซ์	https://ngc.nvidia.com/catalog/models/nvidia:quartznet15x5	librispeech, mozilla-เสียงทั่วไป	https://github.com/NVIDIA/NeMo
OpenSeq2Seq-แจสเปอร์	https://nvidia.github.io/OpenSeq2Seq/html/speech-recognition.html#models	บรรณารักษ์	https://github.com/NVIDIA/OpenSeq2Seq
เอสเน็ต	https://github.com/espnet/espnet#asr-results	บรรณารักษ์, ไอเชลล์, HKUST, TEDLIUM2	https://github.com/espnet/espnet
wav2letter++	https://talonvoice.com/research/	บรรณารักษ์	https://github.com/facebookresearch/wav2letter
Deepspeech2 ไพทอร์ช	SeanNaren/deeppeech.pytorch#299 (ความคิดเห็น)	บรรณารักษ์	https://github.com/SeanNaren/deeppeech.pytorch
การพูดอย่างลึกซึ้ง	https://github.com/mozilla/DeepSpeech#getting-the-pre-trained-model	mozilla-common-voice, librispeech, ฟิชเชอร์, สวิตช์บอร์ด	https://github.com/mozilla/DeepSpeech
เวฟเน็ตคำพูดเป็นข้อความ	https://github.com/buriburisuri/speech-to-text-wavenet#pre-trained-models	วีซีทีเค	https://github.com/buriburisuri/speech-to-text-wavenet
ที่ 16k	https://github.com/at16k/at16k#download-models	นา	นา

ชุดข้อมูล

ชุดข้อมูลที่อ้างอิงในเอกสารนี้

ข้อมูลโมเดลภาษา

การรวบรวมข้อมูลทั่วไป

http://commoncrawl.org/

เอนวิก8

การถ่ายโอนข้อมูล Wikipedia (เกณฑ์มาตรฐานการบีบอัดข้อความขนาดใหญ่) http://mattmahoney.net/dc/textdata.html

ข้อความ8

Wikipedia ทำความสะอาดข้อความ (มาตรฐานการบีบอัดข้อความขนาดใหญ่) http://mattmahoney.net/dc/textdata.html

lm1b

เกณฑ์มาตรฐานโมเดลภาษา 1 พันล้านคำ https://www.statmt.org/lm-benchmark/

wt103

วิกิข้อความ 103 https://blog.einstein.ai/the-wikitext-long-term-dependency- language-modeling-dataset/

ข้อความเว็บ

ชุดข้อมูลต้นฉบับไม่ได้เผยแพร่โดยผู้เขียน คอลเลกชันโอเพ่นซอร์สมีอยู่ที่ https://skylion007.github.io/OpenWebTextCorpus/

วิกิพีเดียภาษาอังกฤษ

https://en.wikipedia.org/wiki/Wikipedia:Database_download#English-Language_Wikipedia

หนังสือคอร์ปัส

https://yknzhu.wixsite.com/mbweb https://github.com/soskek/bookcorpus

ความรู้สึก

สวท

ธนาคารต้นไม้ความเชื่อมั่นของสแตนฟอร์ด https://nlp.stanford.edu/sentiment/index.html หนึ่งในงานกาว

ไอเอ็มดีบี

ชุดข้อมูลบทวิจารณ์ภาพยนตร์ IMDB ที่ใช้สำหรับการจำแนกความคิดเห็น http://ai.stanford.edu/~amaas/data/sentiment

เซมิวาล2018te

ชุดข้อมูลอารมณ์ทวีต Semeval 2018 https://competitions.codalab.org/competitions/17751

กาว

Glue คือชุดของทรัพยากรสำหรับการเปรียบเทียบระบบภาษาธรรมชาติ https://gluebenchmark.com/ ประกอบด้วยชุดข้อมูลเกี่ยวกับการอนุมานภาษาธรรมชาติ การจำแนกความรู้สึก การตรวจจับการถอดความ การจับคู่ความคล้ายคลึง และการยอมรับภาษา