makalah PLM
Disumbangkan oleh Xiaolei Wang
Model bahasa terlatih (PLM) berskala besar seperti BERT dan GPT telah mencapai kesuksesan besar dan menjadi tonggak sejarah dalam NLP.
Dalam repo ini, kami mengumpulkan beberapa makalah PLM yang representatif dalam beberapa tahun terakhir berdasarkan jumlah kutipan dan makalah yang diterbitkan di konferensi terkemuka terkini (misalnya, ACL, EMNLP, ICLR, ICML, NeurIPS).
Kami akan terus memperbarui repo dan menyambut permintaan dan masalah penarikan! Terima kasih atas bintang dan garpu Anda!
Daftar isi
- Survei
- Tolok ukur
- Desain PLM
- Umum
- Pengetahuan
- Multibahasa
- Multi-Modal
- Pengambilan Informasi
- Kode
- Yang lain
- Analisis PLM
- Pengetahuan
- Kekokohan
- ketersebaran
- Yang lain
- PLM yang efisien
- Pelatihan
- Kesimpulan
- Kompresi
- Adaptasi PLM
- Dua Tahap
- Multi-Tugas
- Adaptor
- Mengingatkan
- Yang lain
Survei
- "Model terlatih untuk pemrosesan bahasa alami: Sebuah survei".
Science China Technological Sciences(2020)
[PDF] - "*BERT yang mana? Survei yang Mengorganisasikan Pembuat Enkode Kontekstual".
EMNLP(2020)
[PDF] - "Pedoman BERTology: Apa yang Kami Ketahui Tentang Cara Kerja BERT".
TACL(2020)
[PDF] - "Dari representasi kata statis ke dinamis: survei".
International Journal of Machine Learning and Cybernetics(2020)
[PDF] - "Ikhtisar Model Berbasis Transformer untuk Tugas NLP".
2020 15th Conference on Computer Science and Information Systems (FedCSIS)
[PDF] - "Survei tentang Penyematan Kontekstual".
arXiv(2020)
[PDF] - "Buku Masak NLP: Resep Modern untuk Arsitektur Pembelajaran Mendalam Berbasis Transformer".
IEEE Access(2021)
[PDF] - "Model Terlatih: Dulu, Sekarang, dan Masa Depan".
arXiv(2021)
[PDF] - "Pra-latihan, Prompt, dan Prediksi: Survei Sistematis tentang Metode Prompting dalam Pemrosesan Bahasa Alami".
arXiv(2021)
[PDF] - "AMMUS: Survei Model Terlatih Berbasis Transformer dalam Pemrosesan Bahasa Alami".
arXiv(2021)
[PDF] - "Tentang Peluang dan Risiko Model Fondasi".
arXiv(2021)
[PDF] - "Pergeseran Paradigma dalam Pemrosesan Bahasa Alami".
arXiv(2021)
[PDF] - "Kemajuan Terkini dalam Pemrosesan Bahasa Alami melalui Model Bahasa Besar yang Telah Dilatih Sebelumnya: Sebuah Survei".
arXiv(2021)
[PDF]
Tolok ukur
- XNLI : "XNLI: Mengevaluasi Representasi Kalimat Lintas Bahasa".
EMNLP(2018)
[PDF] [Kumpulan Data] - GLUE : "GLUE: Platform Analisis dan Tolok Ukur Multi-Tugas untuk Pemahaman Bahasa Alami".
ICLR(2019)
[Beranda] - SuperGLUE : "SuperGLUE: Tolok Ukur yang Lebih Lengket untuk Sistem Pemahaman Bahasa Tujuan Umum".
NeurIPS(2019)
[Beranda] - CLUE : "CLUE: Tolok Ukur Evaluasi Pemahaman Bahasa Mandarin".
COLING(2020)
[Beranda] - XTREME : "XTREME: Tolok Ukur Multitugas Multibahasa Secara Besar-besaran untuk Mengevaluasi Generalisasi Lintas Bahasa".
ICML(2020)
[Beranda] - XGLUE : "XGLUE: Kumpulan Data Tolok Ukur Baru untuk Pra-pelatihan, Pemahaman, dan Pembuatan Lintas Bahasa".
EMNLP(2020)
[Beranda] - DialoGLUE : "DialoGLUE: Tolok Ukur Pemahaman Bahasa Alami untuk Dialog Berorientasi Tugas".
arXiv(2020)
[Beranda]
Desain PLM
Umum
- GPT : "Meningkatkan Pemahaman Bahasa dengan Pra-Pelatihan Generatif".
OpenAI(2018)
[Proyek] - GPT-2 : "Model Bahasa adalah Pembelajar Multitask Tanpa Pengawasan".
OpenAI(2019)
[Proyek] - BERT : "BERT: Pra-pelatihan Transformator Dua Arah Dalam untuk Pemahaman Bahasa".
NAACL(2019)
[PDF] [Kode] - XLNet : "XLNet: Pra-Pelatihan Autoregresif Umum untuk Pemahaman Bahasa".
NeurIPS(2019)
[PDF] [Kode] - SBERT : "Sentence-BERT: Penyematan Kalimat menggunakan Jaringan BERT Siam".
ACL(2019)
[PDF] [Kode] - UniLM : "Pra-pelatihan Model Bahasa Terpadu untuk Pemahaman dan Pembuatan Bahasa Alami".
NeurIPS(2019)
[PDF] [Kode] - MASS : "MASS: Urutan Bertopeng ke Urutan Pra-pelatihan untuk Generasi Bahasa".
ICML(2019)
[PDF] [Kode] - Chinese-BERT-wwm : "Pra-Pelatihan dengan Penyembunyian Kata Utuh untuk BERT Cina".
arXiv(2019)
[PDF] [Kode] - "Pelatihan Awal Jaringan Perhatian Diri yang Didorong oleh Cloze".
EMNLP(2019)
[PDF] - "BERT Punya Mulut, dan Harus Berbicara: BERT sebagai Model Bahasa Bidang Acak Markov".
Workshop on Methods for Optimizing and Evaluating Neural Language Generation(2019)
[PDF] [Kode] - GPT-3 : "Model Bahasa adalah Pembelajar yang Sedikit Pembelajar".
NeurIPS(2020)
[PDF] [Kode] - T5 : “Menjelajahi Batasan Pembelajaran Transfer dengan Unified Text-to-Text Transformer”.
JMLR(2020)
[PDF] [Kode] - BART : "BART: Pra-pelatihan Denoising Sequence-to-Sequence untuk Pembuatan, Terjemahan, dan Pemahaman Bahasa Alami".
ACL(2020)
[PDF] [Kode] - Poly-encoder : "Poly-encoder: Arsitektur dan Strategi Pra-pelatihan untuk Penilaian Multi-kalimat yang Cepat dan Akurat".
ICLR(2020)
[PDF] - SpanBERT : "SpanBERT: Meningkatkan Pra-pelatihan dengan Mewakili dan Memprediksi Rentang".
TACL(2020)
[PDF] [Kode] - ERNIE 2.0 : "ERNIE 2.0: Kerangka Pra-Pelatihan Berkelanjutan untuk Pemahaman Bahasa".
AAAI(2020)
[PDF] [Kode] - SemBERT : "BERT Sadar Semantik untuk Pemahaman Bahasa".
AAAI(2020)
[PDF] [Kode] - "Memanfaatkan Pos Pemeriksaan Terlatih untuk Tugas Pembuatan Urutan".
TACL(2020)
[PDF] [Kode] - ProphetNet : "ProphetNet: Memprediksi N-gram Masa Depan untuk Pra-pelatihan Urutan-ke-Urutan".
EMNLP(2020)
[PDF] - UniLMv2 : "UniLMv2: Model Bahasa Pseudo-Masked untuk Pra-Pelatihan Model Bahasa Terpadu".
ICML(2020)
[PDF] [Kode] - MacBERT : "Meninjau Kembali Model Pra-Terlatih untuk Pemrosesan Bahasa Alami Tiongkok".
EMNLP(2020)
[PDF] [Kode] - MPNet : "MPNet: Pra-pelatihan Bertopeng dan Diijinkan untuk Pemahaman Bahasa".
arXiv(2020)
[PDF] [Kode] - DEBERTA : "DeBERTa: BERT yang disempurnakan dengan decoding dengan Perhatian Terurai".
ICLR(2021)
[PDF] [Kode] - PALM : "PALM: Pra-pelatihan Model Bahasa Autoencoding & Autoregresif untuk Generasi Berkondisi Konteks".
EMNLP(2020)
[PDF] - Optimus : "Optimus: Menyusun Kalimat melalui Pemodelan Ruang Laten yang Telah Dilatih".
EMNLP(2020)
[PDF] [Kode] - "Pelatihan mandiri Meningkatkan Pra-pelatihan untuk Pemahaman Bahasa Alami".
NAACL(2021)
[PDF] [Kode] - CAPT : "Memikirkan Kembali Pengkodean Otomatis yang Ditolak dalam Pra-Pelatihan Bahasa".
EMNLP(2021)
[PDF] - "Alternatif Pra-Pelatihan yang Sangat Sederhana untuk Pemodelan Bahasa Terselubung".
EMNLP(2021)
[PDF] [Kode] - "Konvolusi dan Perhatian Diri: Menafsirkan Ulang Posisi Relatif dalam Model Bahasa yang Telah Dilatih".
ACL(2021)
[PDF] [Kode] - ERNIE-Doc : "ERNIE-Doc: Transformator Pemodelan Dokumen Panjang Retrospektif".
ACL(2021)
[PDF] [Kode] - "Representasi Bahasa Universal Pra-pelatihan".
ACL(2021)
[PDF] [Kode]
Pengetahuan
- ERNIE(Baidu) : "ERNIE: Peningkatan Representasi melalui Integrasi Pengetahuan".
arXiv(2019)
[PDF] [Kode] - KnowBert : "Representasi Kata Kontekstual yang Ditingkatkan Pengetahuan".
EMNLP(2019)
[PDF] - ERNIE(Tsinghua) : "ERNIE: Peningkatan Representasi Bahasa dengan Entitas Informatif".
ACL(2019)
[PDF] [Kode] - COMET : "COMET: Transformator Akal Sehat untuk Konstruksi Grafik Pengetahuan Otomatis".
ACL(2019)
[PDF] [Kode] - K-BERT : "K-BERT: Mengaktifkan Representasi Bahasa dengan Grafik Pengetahuan".
AAAI(2020)
[PDF] [Kode] - WKLM : "Ensiklopedia Terlatih: Model Bahasa yang Dilatih Pengetahuan dengan Pengawasan Lemah".
ICLR(2020)
[PDF] - LUKE : "LUKE: Representasi Entitas yang Dikontekstualisasikan dengan Perhatian Diri yang Sadar Entitas".
EMNLP(2020)
[PDF] [Kode] - K-Adapter : "K-Adapter: Menanamkan Pengetahuan ke dalam Model Terlatih dengan Adaptor".
ICLR(2021)
[PDF] - KEPLER : "KEPLER: Model Terpadu untuk Penanaman Pengetahuan dan Representasi Bahasa Terlatih".
TACL(2021)
[PDF] [Kode] - RuleBERT : "RuleBERT: Mengajarkan Aturan Lembut kepada Model Bahasa yang Sudah Terlatih".
EMNLP(2021)
[PDF] [Kode] - BeliefBank : "Menjelajahi Peran Representasi Token BERT untuk Menjelaskan Hasil Penyelidikan Kalimat".
EMNLP(2021)
[PDF] [Kode] - Phrase-BERT : "Phrase-BERT: Peningkatan Penyematan Frase dari BERT dengan Penerapan pada Eksplorasi Corpus".
EMNLP(2021)
[PDF] [Kode] - "Model Terlatih dengan Peningkatan Sintaks".
ACL(2021)
[PDF] [Kode] - StructFormer : "StructFormer: Induksi Gabungan Tanpa Pengawasan atas Ketergantungan dan Struktur Konstituensi dari Pemodelan Bahasa Terselubung".
ACL(2021)
[PDF] - ERICA : "ERICA: Meningkatkan Pemahaman Entitas dan Relasi untuk Model Bahasa Terlatih melalui Pembelajaran Kontrastif".
ACL(2021)
[PDF] [Kode] - "Panduan Struktural untuk Model Bahasa Transformer".
ACL(2021)
[PDF] [Kode] - HORNET : "HORNET: Memperkaya Representasi Bahasa Terlatih dengan Sumber Pengetahuan Heterogen".
CIKM(2021)
[PDF] - "Jatuhkan Redundan, Kecilkan Tidak Relevan: Suntikan Pengetahuan Selektif untuk Pra-Pelatihan Bahasa".
IJCAI(2021)
[PDF]
Multibahasa
- XLM : "Pelatihan Awal Model Bahasa Lintas Bahasa".
arXiv(2019)
[PDF] [Kode] - "Penyematan Kalimat Multibahasa Secara Besar-besaran untuk Transfer Lintas Bahasa Zero-Shot dan Lebih Lanjut".
TACL(2019)
[PDF] [Kode] - UDify : "75 Bahasa, 1 Model: Mengurai Ketergantungan Universal Secara Universal".
EMNLP(2019)
[PDF] [Kode] - Unicoder : "Unicoder: Encoder Bahasa Universal dengan Pra-pelatihan dengan Berbagai Tugas Lintas Bahasa".
EMNLP(2019)
[PDF] - XLM-R : "Pembelajaran Representasi Lintas Bahasa Tanpa Pengawasan dalam Skala Besar".
ACL(2020)
[PDF] - "Penyelarasan Multibahasa dari Representasi Kata Kontekstual".
ICLR(2020)
[PDF] - mBART : "Pra-pelatihan Denoising Multibahasa untuk Terjemahan Mesin Neural".
TACL(2020)
[PDF] [Kode] - mT5 : "mT5: Transformator Teks-ke-Teks Multibahasa yang Telah Dilatih Secara Besar-besaran".
NAACL(2021)
[PDF] [Kode] - InfoXLM : "InfoXLM: Kerangka Teori Informasi untuk Pra-Pelatihan Model Bahasa Lintas Bahasa".
NAACL(2021)
[PDF] [Kode] - "Mengalokasikan Kapasitas Kosakata yang Besar untuk Pra-pelatihan Model Bahasa Lintas Bahasa".
EMNLP(2021)
[PDF] [Kode] - ERNIE-M : "ERNIE-M: Peningkatan Representasi Multibahasa dengan Menyelaraskan Semantik Lintas Bahasa dengan Monolingual Corpora".
EMNLP(2021)
[PDF] [Kode] - "Metode Geometris Sederhana untuk Transformasi Linguistik Lintas Bahasa dengan Autoencoder Terlatih".
EMNLP(2021)
[PDF] - "Meningkatkan Transfer Lintas Bahasa melalui Pembelajaran Mandiri dengan Estimasi Ketidakpastian".
EMNLP(2021)
[PDF] - "Seberapa Bagus Tokenizer Anda? Tentang Kinerja Monolingual Model Bahasa Multibahasa".
ACL(2021)
[PDF] [Kode] - "Pra-pelatihan Multibahasa dengan Pembelajaran Ketergantungan Universal".
NeurIPS(2021)
[PDF]
Multi-Modal
- ViLBERT : "ViLBERT: Pra-pelatihan Representasi Visiolinguistik Tugas-Agnostik untuk Tugas Penglihatan dan Bahasa".
NeuralIPS(2019)
[PDF] - LXMERT : "LXMERT: Mempelajari Representasi Encoder Lintas Modalitas dari Transformers".
EMNLP(2019)
[PDF] [Kode] - VideoBERT : "VideoBERT: Model Gabungan untuk Pembelajaran Representasi Video dan Bahasa"
ICCV(2019)
[PDF] - VisualBERT : "VisualBERT: Garis Dasar yang Sederhana dan Berkinerja untuk Visi dan Bahasa".
arXiv(2019)
[PDF] - B2T2 : "Penggabungan Objek yang Terdeteksi dalam Teks untuk Menjawab Pertanyaan Visual".
EMNLP(2019)
[PDF] [Kode] - VL-BERT : "VL-BERT: Pra-pelatihan Representasi Visual-Linguistik Generik".
ICLR(2020)
[PDF] [Kode] - Unicoder-VL : "Unicoder-VL: Encoder Universal untuk Penglihatan dan Bahasa dengan Pra-Pelatihan Lintas Modal".
AAAI(2020)
[PDF] - VLP : "Pra-Pelatihan Bahasa Visi Terpadu untuk Teks Gambar dan VQA".
AAAI(2020)
[PDF] [Kode] - UNITER : "UNITER: Pembelajaran Representasi Gambar-Teks UNIversal".
ECCV(2020)
[PDF] [Kode] - Oscar : "Oscar: Pra-pelatihan Semantik Objek yang Diselaraskan untuk Tugas Penglihatan-Bahasa".
ECCV(2020)
[PDF] [Kode] - "12-in-1: Visi Multi-Tugas dan Pembelajaran Representasi Bahasa".
CVPR(2020)
[PDF] [Kode] - ActBERT : "ActBERT: Mempelajari Representasi Video-Teks Global-Lokal".
CVPR(2020)
[PDF] - VLN : "Navigasi Bahasa Visi Dengan Tugas Penalaran Tambahan yang Diawasi Sendiri".
CVPR(2020)
[PDF] - VILLA : "Pelatihan Adversarial Skala Besar untuk Pembelajaran Representasi Visi dan Bahasa".
arXiv(2020)
[PDF] [Kode] - ImageBERT : "ImageBERT: Pra-pelatihan lintas modal dengan Data Gambar-Teks Skala Besar dengan Pengawasan Lemah".
arXiv(2020)
[PDF] - ALIGN : "Meningkatkan Pembelajaran Representasi Visual dan Visi-Bahasa Dengan Supervisi Teks Bising".
ICML(2021)
[PDF] - ClipBERT : "Less Is More: ClipBERT untuk Pembelajaran Video dan Bahasa melalui Sparse Sampling".
CVPR(2021)
[PDF] [Kode] - DALL·E : "Pembuatan Teks-ke-Gambar Zero-Shot".
arXiv(2021)
[PDF] [Kode] - CLIP : "Mempelajari Model Visual yang Dapat Dipindahtangankan Dari Pengawasan Bahasa Alami".
arXiv(2021)
[PDF] [Kode] - IPT : "Trafo Pemrosesan Gambar Terlatih".
CVPR(2021)
[PDF] [Kode] - CvT : "CvT: Memperkenalkan Konvolusi pada Vision Transformers".
ICCV(2021)
[PDF] [Kode] - "Meningkatkan Pembelajaran Representasi Visual dan Visi-Bahasa Dengan Supervisi Teks Bising".
ICML(2021)
[PDF] - TERA : "TERA: Pembelajaran yang Diawasi Sendiri dari Representasi Encoder Transformer untuk Pidato".
TASLP(2021)
[PDF] [Kode] - CaiT : "Mendalami lebih dalam dengan Image Transformers".
ICCV(2021)
[PDF] [Kode] - ViViT : "ViViT: Transformator Visi Video".
ICCV(2021)
[PDF] [Kode] - VirTex : "VirTex: Mempelajari Representasi Visual Dari Anotasi Tekstual".
CVPR(2021)
[PDF] [Kode] - M6 : "M6: Mega-transformator Multi-Modalitas-ke-Multi-Modalitas untuk Pra-Pelatihan Terpadu".
KDD(2021)
[PDF] - "Menyelidiki Antar-modalitas: Penguraian Visual dengan Perhatian Diri untuk Pra-pelatihan Penglihatan dan Bahasa".
NeurIPS(2021)
[PDF] - GilBERT : "GilBERT: Pra-Pelatihan Bahasa Visi Generatif untuk Tugas Visual-Linguistik Modalitas-Tidak Lengkap".
SIGIR(2021)
[PDF]
Pengambilan Informasi
- ORQA : "Pengambilan Laten untuk Jawaban Pertanyaan Domain Terbuka dengan Pengawasan Lemah".
ACL(2019)
[PDF] - REALM : "REALM: Pra-Pelatihan Model Bahasa Retrieval-Augmented".
arXiv(2020)
[PDF] - RAG : "Generasi Pengambilan Augmented untuk Tugas NLP Intensif Pengetahuan".
NeurIPS(2020)
[PDF] [Kode] - DPR : "Pengambilan Bagian Padat untuk Menjawab Pertanyaan Domain Terbuka".
EMNLP(2020)
[PDF] [Kode] - "Memanfaatkan Pengambilan Bagian dengan Model Generatif untuk Menjawab Pertanyaan Domain Terbuka".
EACL(2021)
[PDF] [Kode]
Kode
- CodeT5 : "CodeT5: Model Encoder-Decoder Terpadu yang Sadar Pengidentifikasi untuk Pemahaman dan Pembuatan Kode".
EMNLP(2021)
[PDF] [Kode] - Codex : "Mengevaluasi Model Bahasa Besar yang Dilatih tentang Kode".
arXiv(2021)
[PDF] [Kode]
Yang lain
- ReasonBERT : "ReasonBERT: Dilatih untuk Bernalar dengan Pengawasan Jarak Jauh".
EMNLP(2021)
[PDF] [Kode] - "Autoencoder Kemacetan Kalimat dari Model Bahasa Transformer".
EMNLP(2021)
[PDF] [Kode] - "Berhitung meningkatkan Literasi Model Bahasa".
EMNLP(2021)
[PDF] [Kode] - EnsLM : "EnsLM: Model Bahasa Ensemble untuk Keanekaragaman Data dengan Pengelompokan Semantik".
ACL(2021)
[PDF] [Kode] - "Penguraian Kode Reflektif: Melampaui Generasi Searah dengan Model Bahasa Siap Pakai".
ACL(2021)
[PDF] [Kode] - BERTAC : "BERTAC: Meningkatkan Model Bahasa Berbasis Transformator dengan Jaringan Neural Konvolusional yang Telah Dilatih Sebelumnya".
ACL(2021)
[PDF] [Kode] - "Pemahaman Bahasa Alami dengan BERT yang Menjaga Privasi".
CIKM(2021)
[PDF] - BANG : "BANG: Menjembatani Generasi Autoregresif dan Non-autoregresif dengan Pra-pelatihan Skala Besar".
ICML(2021)
[PDF] [Kode]
Analisis PLM
Pengetahuan
- "Apa yang Dilihat BERT? Analisis Perhatian BERT".
BlackBoxNLP(2019)
[PDF] [Kode] - "BERT Menemukan Kembali Saluran NLP Klasik".
ACL(2019)
[PDF] - "Seberapa Multibahasa BERT Multibahasa?".
ACL(2019)
[PDF] - "Penyelidikan Struktural untuk Menemukan Sintaks dalam Representasi Kata".
NAACL(2019)
[PDF] [Kode] - "Model Bahasa sebagai Basis Pengetahuan?".
EMNLP(2019)
[PDF] [Kode] - "Apa yang BERT Pelajari tentang Struktur Bahasa?".
ACL(2019)
[PDF] [Kode] - "Pengetahuan Linguistik dan Transferabilitas Representasi Kontekstual".
NAACL(2019)
[PDF] - "Menilai Kemampuan Sintaksis BERT".
arXiv(2019)
[PDF] [Kode] - "Menyelidiki Pemahaman Jaringan Syaraf tentang Argumen Bahasa Alami"
ACL(2019)
[PDF] - "Seberapa Kontekstual Representasi Kata yang Dikontekstualisasikan? Membandingkan Geometri Embeddings BERT, ELMo, dan GPT-2".
EMNLP(2019)
[PDF] - "Memvisualisasikan dan Mengukur Geometri BERT".
NeurIPS(2019)
[PDF] - "Merancang dan Menafsirkan Probe dengan Tugas Kontrol".
EMNLP(2019)
[PDF] - "Open Sesame: Mendalami Pengetahuan Linguistik BERT".
BlackboxNLP(2019)
[PDF] [Kode] - "Apa yang Anda pelajari dari konteks? Menyelidiki struktur kalimat dalam representasi kata yang dikontekstualisasikan".
ICLR(2019)
[PDF] [Kode] - "Penambangan Pengetahuan Akal Sehat dari Model Terlatih".
EMNLP(2019)
[PDF] - "Apakah Model NLP Mengetahui Angka? Menyelidiki Numerasi dalam Embeddings".
EMNLP(2019)
[PDF] - "Tentang Transferabilitas Lintas Bahasa dari Representasi Monolingual".
ACL(2020)
[PDF] - "Kemampuan Lintas Bahasa BERT Multibahasa: Sebuah Studi Empiris".
ICLR(2020)
[PDF] [Kode] - "Yang Bukan BERT: Pelajaran dari Rangkaian Diagnostik Psikolinguistik Baru untuk Model Bahasa".
TACL(2020)
[PDF] [Kode] - "Berapa Banyak Pengetahuan yang Dapat Anda Masukkan ke dalam Parameter Model Bahasa?".
EMNLP(2020)
[PDF] [Kode] - "Bagaimana Kita Bisa Mengetahui Model Bahasa yang Diketahui?".
TACL(2020)
[PDF] [Kode] - "oLMpics-Tentang Model Bahasa Apa yang Diambil Pra-pelatihan".
TACL(2020)
[PDF] [Kode] - "Penyelidikan Teori-Informasi dengan Panjang Deskripsi Minimum".
EMNLP(2020)
[PDF] [Kode] - "Mendorong Pengetahuan Relasional dari BERT".
AAAI(2020)
[PDF] - AutoPrompt : "AutoPrompt: Memunculkan Pengetahuan dari Model Bahasa dengan Perintah yang Dihasilkan Secara Otomatis".
EMNLP(2020)
[PDF] [Kode] - "Struktur linguistik yang muncul dalam jaringan saraf tiruan yang dilatih dengan pengawasan mandiri".
PNAS(2020)
[PDF] - "Mengevaluasi Akal Sehat dalam Model Bahasa yang Telah Dilatih".
AAAI(2020)
[PDF] [Kode] - "Mendorong Pengetahuan Relasional dari BERT".
AAAI(2020)
[PDF] - "Mengedit Pengetahuan Faktual dalam Model Bahasa".
EMNLP(2021)
[PDF] [Kode] - "Berapa banyak data prapelatihan yang dibutuhkan model bahasa untuk mempelajari sintaksis?".
EMNLP(2021)
[PDF] - "Ibu tiri itu kejam dan akademisinya sok: Apa yang dipelajari model bahasa terlatih tentang Anda?".
EMNLP(2021)
[PDF] [Kode] - "Menempatkan Kata di Mulut BERT: Menavigasi Ruang Vektor Kontekstual dengan Kata Pseudo".
EMNLP(2021)
[PDF] [Kode] - "Efek Frekuensi pada Pembelajaran Aturan Sintaksis di Transformers".
EMNLP(2021)
[PDF] [Kode] - "Menjelajahi Peran Representasi Token BERT untuk Menjelaskan Hasil Penyelidikan Kalimat".
EMNLP(2021)
[PDF] [Kode] - "Bagaimana BERT terkejut? Deteksi anomali linguistik secara berlapis".
ACL(2021)
[PDF] [Kode] - "Representasi Makna Implisit dalam Model Bahasa Neural".
ACL(2021)
[PDF] [Kode] - "Tebakan Berpengetahuan atau Terdidik? Meninjau Kembali Model Bahasa sebagai Basis Pengetahuan".
ACL(2021)
[PDF] [Kode]
Kekokohan
- "Pemicu Permusuhan Universal untuk Menyerang dan Menganalisis NLP".
EMNLP(2019)
[PDF] [Kode] - "Transformator Terlatih Meningkatkan Kekokohan Di Luar Distribusi".
ACL(2020)
[PDF] [Kode] - BERT-ATTACK : "BERT-ATTACK: Serangan Adversarial Terhadap BERT Menggunakan BERT".
EMNLP(2020)
[PDF] [Kode] - "Apakah BERT Benar-benar Kuat? Dasar Kuat untuk Serangan Bahasa Alami pada Klasifikasi dan Entailment Teks".
AAAI(2020)
[PDF] [Kode] - "Iblis Ada dalam Detailnya: Trik Sederhana Meningkatkan Generalisasi Transformers yang Sistematis".
EMNLP(2021)
[PDF] [Kode] - "Memilah kebisingan: Menguji ketahanan pemrosesan informasi dalam model bahasa yang telah dilatih sebelumnya".
EMNLP(2021)
[PDF] [Kode]
ketersebaran
- "Apakah Enam Belas Kepala Lebih Baik dari Satu?".
NeurIPS(2019)
[PDF] [Kode] - "Menganalisis Perhatian Diri Multi-Kepala: Kepala Khusus Melakukan Pengangkatan Berat, Sisanya Dapat Dipangkas".
ACL(2019)
[PDF] [Kode] - "Mengungkap Rahasia Gelap BERT".
EMNLP(2019)
[PDF] - "Hipotesis Tiket Lotere untuk Jaringan BERT yang telah dilatih sebelumnya".
NeurIPS(2020)
[PDF] [Kode] - "Saat BERT Memainkan Lotere, Semua Tiket Menang".
EMNLP(2020)
[PDF] [Kode]
Yang lain
- "Hukum Penskalaan untuk Model Bahasa Neural".
arXiv(2020)
[PDF] - "Mengekstraksi Data Pelatihan dari Model Bahasa Besar".
arXiv(2020)
[PDF] [Kode] - "Tentang Bahaya Burung Beo Stokastik: Bisakah Model Bahasa Menjadi Terlalu Besar? ?".
FACCT(2021)
[PDF] - "Mengekstraksi Data Pelatihan dari Model Bahasa Besar".
USENIX(2021)
[PDF] [Kode] - "Pemodelan Bahasa Terselubung dan Hipotesis Distribusi: Pra-pelatihan Penting untuk Si Kecil".
EMNLP(2021)
[PDF] [Kode] - "Pengaruh Pertumbuhan Norma Parameter Selama Pelatihan Transformator: Bias Induktif dari Penurunan Gradien".
EMNLP(2021)
[PDF] [Kode] - "Gradien Terintegrasi Terdiskritisasi untuk Menjelaskan Model Bahasa".
EMNLP(2021)
[PDF] [Kode] - "Apakah Model Bahasa Jangka Panjang Sebenarnya Menggunakan Konteks Jangka Panjang?".
EMNLP(2021)
[PDF] - "Kompetisi Bentuk Permukaan: Mengapa Jawaban dengan Kemungkinan Tertinggi Tidak Selalu Benar".
EMNLP(2021)
[PDF] [Kode] - "Memasukkan Lapisan Residual dan Normalisasi ke dalam Analisis Model Bahasa Terselubung".
EMNLP(2021)
[PDF] [Kode] - "Panjang Urutan adalah Domain: Overfitting Berbasis Panjang dalam Model Transformer".
EMNLP(2021)
[PDF] - "Apakah Konvolusi Terlatih Lebih Baik daripada Transformer Terlatih?".
ACL(2021)
[PDF] - "Artefak Posisi Disebarkan Melalui Penyematan Model Bahasa Terselubung".
ACL(2021)
[PDF] - "Kapan Anda Membutuhkan Miliaran Kata Data Pra-Pelatihan?".
ACL(2021)
[PDF] [Kode] - "BERT bagi NLP sama dengan AlexNet bagi CV: Dapatkah Model Bahasa Terlatih Mengidentifikasi Analogi?".
ACL(2021)
[PDF] [Kode] - "Meneliti Bias Induktif Model Bahasa Neural dengan Bahasa Buatan".
ACL(2021)
[PDF] [Kode] - "Mengapa Model Bahasa yang Telah Dilatih Membantu Tugas Hilir? Analisis Penyetelan Head dan Prompt".
NeurIPS(2021)
[PDF]
PLM yang efisien
Pelatihan
- RoBERTa : "RoBERTa: Pendekatan Pra-Pelatihan BERT yang Dioptimalkan dengan Kuat".
arXiv(2019)
[PDF] [Kode] - "Pelatihan BERT yang Efisien dengan Penumpukan Secara Progresif".
ICML(2019)
[PDF] [Kode] - Megatron-LM : "Megatron-LM: Melatih Model Bahasa Multi-Miliar Parameter Menggunakan Model Paralelisme".
arXiv(2019)
[PDF] [Kode] - ELECTRA : "ELECTRA: Pembuat Enkode Teks Pra-pelatihan sebagai Diskriminator Daripada Generator".
ICLR(2020)
[PDF] [Kode] - "Optimasi Batch Besar untuk Pembelajaran Mendalam: Pelatihan BERT dalam 76 menit".
ICLR(2020)
[PDF] [Kode] - GShard : "GShard: Menskalakan Model Raksasa dengan Komputasi Bersyarat dan Sharding Otomatis".
arXiv(2020)
[PDF] - Admin : “Memahami Sulitnya Melatih Transformer”.
EMNLP(2020)
[PDF] [Kode] - ZeRO : "ZeRO: Optimalisasi Memori Menuju Pelatihan Model Triliun Parameter".
SC20: International Conference for High Performance Computing, Networking, Storage and Analysis
[PDF] [Kode] - Switch Transformers : "Switch Transformers: Menskalakan Model Parameter Triliun dengan Ketersebaran yang Sederhana dan Efisien".
arXiv(2021)
[PDF] [Kode] - "Cara Melatih BERT dengan Anggaran Akademik".
EMNLP(2021)
[PDF] - "Mengoptimalkan Transformer yang Lebih Dalam pada Kumpulan Data Kecil".
ACL(2021)
[PDF] [Kode] - "EarlyBERT: Pelatihan BERT yang Efisien melalui Tiket Lotere Early-bird".
ACL(2021)
[PDF] [Kode]
Kesimpulan
- "BERT Kehilangan Kesabaran: Inferensi Cepat dan Kuat dengan Keluar Lebih Awal".
NeurIPS(2020)
[PDF] [Kode] - GAML-BERT : "GAML-BERT: Meningkatkan BERT Early Exiting dengan Gradient Aligned Mutual Learning".
EMNLP(2021)
[PDF] - "Model Bahasa Tetangga Terdekat yang Efisien".
EMNLP(2021)
[PDF] [Kode] - GhostBERT : "GhostBERT: Hasilkan Lebih Banyak Fitur dengan Operasi Murah untuk BERT".
ACL(2021)
[PDF] [Kode] - LeeBERT : "LeeBERT: Mempelajari Early Exit untuk BERT dengan optimasi lintas level".
ACL(2021)
[PDF] - "Trafo Adaptif Panjang: Latih Sekali dengan Penurunan Panjang, Gunakan Kapan Saja dengan Penelusuran".
ACL(2021)
[PDF] [Kode] - "Menyaring Pengetahuan dari BERT menjadi Jaringan Neural Sederhana yang Terhubung Sepenuhnya untuk Pengambilan Vertikal yang Efisien".
CIKM(2021)
[PDF]
Kompresi
- DistilBERT : "DistilBERT, versi sulingan BERT: lebih kecil, lebih cepat, lebih murah, dan lebih ringan".
arXiv(2019)
[PDF] [Kode] - PKD : “Distilasi Pengetahuan Pasien untuk Kompresi Model BERT”.
EMNLP(2019)
[PDF] [Kode] - "Menyaring Pengetahuan Khusus Tugas dari BERT ke dalam Jaringan Neural Sederhana".
arXiv(2019)
[PDF] - Q8BERT : "Q8BERT: BERT 8Bit terkuantisasi".
5th Workshop on Energy Efficient Machine Learning and Cognitive Computing - NeurIPS 2019
[PDF] - ALBERT : "ALBERT: BERT Ringan untuk Pembelajaran Representasi Bahasa yang Diawasi Sendiri".
ICLR(2020)
[PDF] [Kode] - TinyBERT : "TinyBERT: Menyaring BERT untuk Pemahaman Bahasa Alami".
EMNLP(2020)
[PDF] [Kode] - Layerdrop : "Mengurangi Kedalaman Transformer Sesuai Permintaan dengan Dropout Terstruktur".
ICLR(2020)
[PDF] [Kode] - Q-BERT : "Q-BERT: Kuantisasi BERT Presisi Ultra Rendah Berbasis Hessian".
AAAI(2020)
[PDF] - MobileBERT : "MobileBERT: BERT Tugas-Agnostik Ringkas untuk Perangkat dengan Sumber Daya Terbatas".
ACL(2020)
[PDF] [Kode] - "Mengompresi BERT: Mempelajari Pengaruh Pemangkasan Berat Badan pada Pembelajaran Transfer".
5th Workshop on Representation Learning for NLP(2020)
[PDF] [Kode] - MiniLM : "MiniLM: Distilasi Perhatian Diri Mendalam untuk Kompresi Agnostik Tugas dari Transformers yang Telah Dilatih".
arXiv(2020)
[PDF] [Kode] - FastBERT : "FastBERT: BERT penyulingan mandiri dengan Waktu Inferensi Adaptif".
ACL(2020)
[PDF] [Kode] - DeeBERT : "DeeBERT: Keluar Dini Dinamis untuk Mempercepat Inferensi BERT".
ACL(2020)
[PDF] [Kode] - "Mengompresi Model Berbasis Transformator Skala Besar: Studi Kasus BERT".
TACL(2021)
[PDF] - "Memenangkan Lotere dengan Sparsifikasi Berkelanjutan".
NeurIPS(2020)
[PDF] [Kode] - SqueezeBERT : "SqueezeBERT: Apa yang dapat diajarkan oleh computer vision kepada NLP tentang jaringan saraf yang efisien?".
SustaiNLP(2020)
[PDF] - Audio ALBERT : "Audio Albert: Bert Ringan untuk Pembelajaran Representasi Audio yang Diawasi Sendiri".
SLT(2021)
[PDF] [Kode] - T2R : "Menyempurnakan Transformer yang Telah Dilatih Menjadi RNN".
EMNLP(2021)
[PDF] [Kode] - "Melampaui Akurasi yang Dipertahankan: Mengevaluasi Loyalitas dan Kekokohan Kompresi BERT".
EMNLP(2021)
[PDF] [Kode] - Meta-KD : "Meta-KD: Kerangka Penyulingan Pengetahuan Meta untuk Kompresi Model Bahasa di Seluruh Domain".
ACL(2021)
[PDF] [Kode] - "Tiket Super dalam Model Bahasa Terlatih: Dari Kompresi Model hingga Peningkatan Generalisasi".
ACL(2021)
[PDF] [Kode] - BinaryBERT : "BinaryBERT: Mendorong Batas Kuantisasi BERT".
ACL(2021)
[PDF] [Kode] - AutoTinyBERT : "AutoTinyBERT: Optimasi Hyper-parameter Otomatis untuk Model Bahasa Terlatih yang Efisien".
ACL(2021)
[PDF] [Kode] - "Utilitas Marginal Berkurang: Menjelajahi Pengetahuan Minimum untuk Penyulingan Pengetahuan BERT".
ACL(2021)
[PDF] [Kode] - "Mengaktifkan Penyempurnaan Ringan untuk Kompresi Model Bahasa yang telah dilatih sebelumnya berdasarkan Operator Produk Matriks".
ACL(2021)
[PDF] [Kode] - NAS-BERT : "NAS-BERT: Kompresi BERT Tugas-Agnostik dan Ukuran Adaptif dengan Pencarian Arsitektur Neural".
KDD(2021)
[PDF]
Adaptasi PLM
Dua Tahap
- "Pengkode Kalimat pada STILT: Pelatihan Tambahan tentang Tugas Data Berlabel Menengah".
arXiv(2018)
[PDF] [Kode] - "Bagaimana Menyempurnakan BERT untuk Klasifikasi Teks?".
CCL(2019)
[PDF] - "Jangan Berhenti Pelatihan Awal: Sesuaikan Model Bahasa dengan Domain dan Tugas".
ACL(2020)
[PDF] [Kode] - "Pembelajaran Transfer Tugas Menengah dengan Model Bahasa Terlatih: Kapan dan Mengapa Berhasil?".
ACL(2020)
[PDF] - "Apa yang Harus Dilatih Sebelumnya? Pemilihan Tugas Menengah yang Efisien".
EMNLP(2021)
[PDF] [Kode] - "Tentang Pengaruh Kebijakan Masking pada Pra-pelatihan Menengah".
EMNLP(2021)
[PDF] - TADPOLE : "TADPOLE: Tugas Pra-Pelatihan yang Diadaptasi melalui Deteksi AnOmaLy".
EMNLP(2021)
[PDF]
Multi-Tugas
- MT-DNN : "Jaringan Neural Dalam Multi-Tugas untuk Pemahaman Bahasa Alami".
ACL(2019)
[PDF] [Kode] - "BAM! Jaringan Multi-Tugas yang Dilahirkan Kembali untuk Pemahaman Bahasa Alami".
ACL(2019)
[PDF] [Kode] - "Meningkatkan Jaringan Neural Dalam Multi-Tugas melalui Distilasi Pengetahuan untuk Pemahaman Bahasa Alami".
arXiv(2019)
[PDF] [Kode] - GradTS : "GradTS: Metode Pemilihan Tugas Bantu Otomatis Berbasis Gradien Berdasarkan Jaringan Transformer".
EMNLP(2021)
[PDF] - "Apa yang Ada di Kepala Anda? Perilaku yang Muncul dalam Model Transformator Multi-Tugas".
EMNLP(2021)
[PDF] - MTAdam : "MTAdam: Penyeimbangan Otomatis dari Beberapa Ketentuan Kerugian Pelatihan".
EMNLP(2021)
[PDF] - Muppet : "Muppet: Representasi Multi-tugas Besar-besaran dengan Pra-Penyempurnaan".
EMNLP(2021)
[PDF] - "Hipotesis Stem Cell: Dilema dibalik Pembelajaran Multi-Tugas dengan Transformer Encoder".
EMNLP(2021)
[PDF] [Kode] - BERTGen : "BERTGen: Pembuatan Multi-tugas melalui BERT".
ACL(2021)
[PDF] [Kode] - "Penyempurnaan Multi-tugas yang hemat parameter untuk Transformer melalui Hypernetwork Bersama".
ACL(2021)
[PDF] [Kode]
Adaptor
- "BERT dan PALs: Lapisan Perhatian yang Diproyeksikan untuk Adaptasi Efisien dalam Pembelajaran Multi-Tugas".
ICML(2019)
[PDF] [Kode] - Adaptor : "Pembelajaran Transfer Efisien Parameter untuk NLP".
ICML(2019)
[PDF] [Kode] - AdapterDrop : "AdapterDrop: Tentang Efisiensi Adaptor di Transformers".
EMNLP(2021)
[PDF] - "Tentang Efektivitas Penyetelan Berbasis Adaptor untuk Adaptasi Model Bahasa yang Telah Dilatih".
ACL(2021)
[PDF] - "Belajar Menghasilkan Adaptor Khusus Tugas dari Deskripsi Tugas".
ACL(2021)
[PDF] [Kode]
Mengingatkan
- PET : "Memanfaatkan Pertanyaan Cloze untuk Klasifikasi Teks Sedikit dan Inferensi Bahasa Alami".
EACL(2021)
[PDF] [Kode] - "Bukan Hanya Ukuran Yang Penting: Model Bahasa Kecil Juga Sedikit Pembelajar".
NAACL(2021)
[PDF] [Kode] - "Penyetelan Awalan: Mengoptimalkan Perintah Berkelanjutan untuk Pembuatan".
arXiv(2021)
[PDF] - LM-BFF : "Membuat Model Bahasa Terlatih Menjadi Pembelajar Sedikit yang Lebih Baik".
ACL(2021)
[PDF] [Kode] - "Apa yang Menjadi Contoh Dalam Konteks yang Baik untuk GPT-3?".
arXiv(2021)
[PDF] [Kode] - "Kekuatan Skala untuk Penyetelan Cepat yang Efisien Parameter".
EMNLP(2021)
[PDF] [Kode] - "Model Bahasa yang Disempurnakan Adalah Pembelajar Zero-Shot".
arXiv(2021)
[PDF] - "Kalibrasi Sebelum Digunakan: Meningkatkan Performa Model Bahasa Beberapa Gambar".
ICML(2021)
[PDF] [Kode] - TransPrompt : "TransPrompt: Menuju Kerangka Kerja Prompt yang Dapat Dipindahtangankan Otomatis untuk Klasifikasi Teks Sedikit".
EMNLP(2021)
[PDF] [Kode] - SFLM : "Meninjau Kembali Pelatihan Mandiri untuk Pembelajaran Model Bahasa Sedikit".
EMNLP(2021)
[PDF] [Kode] - ADAPET : “Pelatihan Peningkatan dan Penyederhanaan Pemanfaatan Pola”.
EMNLP(2021)
[PDF] [Kode]
Yang lain
- "Menyetel atau Tidak Menyetel? Mengadaptasi Representasi Terlatih untuk Beragam Tugas".
RepL4NLP(2019)
[PDF] - "Pendekatan Sederhana yang Memalukan untuk Pembelajaran Transfer dari Model Bahasa yang Telah Dilatih".
NAACL(2019)
[PDF] [Kode] - "Penyempurnaan Model Bahasa yang Telah Dilatih: Inisialisasi Bobot, Urutan Data, dan Penghentian Awal".
arXiv(2020)
[PDF] - SMART : "SMART: Penyempurnaan yang Kuat dan Efisien untuk Model Bahasa Alami Terlatih melalui Optimasi Teratur yang Berprinsip".
EMNLP(2020)
[PDF] [Kode] - "Meninjau kembali beberapa contoh penyempurnaan BERT".
ICLR(2021)
[PDF] - Mirror-BERT : "Cepat, Efektif, dan Diawasi Sendiri: Mengubah Model Bahasa Terselubung menjadi Pembuat Enkode Leksikal dan Kalimat Universal".
EMNLP(2021)
[PDF] [Kode] - "Pra-pelatihan atau Anotasi? Adaptasi Domain dengan Anggaran Terbatas".
EMNLP(2021)
[PDF] [Kode] - AVocaDo : "AVocaDo: Strategi Adaptasi Kosakata ke Domain Hilir".
EMNLP(2021)
[PDF] - CHILD-TUNING : “Membesarkan Anak dalam Model Bahasa Besar: Menuju Fine-tuning yang Efektif dan Dapat Digeneralisasikan”.
EMNLP(2021)
[PDF] [Kode] - "Menjinakkan Model Bahasa Terlatih dengan Representasi N-gram untuk Adaptasi Domain Sumber Daya Rendah".
ACL(2021)
[PDF] [Kode] - LexFit : "LexFit: Penyempurnaan Leksikal dari Model Bahasa yang Telah Dilatih".
ACL(2021)
[PDF] [Kode] - "Memilih Konteks Informatif Meningkatkan Penyempurnaan Model Bahasa".
ACL(2021)
[PDF] [Kode] - "Studi Empiris tentang Optimasi Hyperparameter untuk Menyempurnakan Model Bahasa Terlatih".
ACL(2021)
[PDF] [Kode] - "Bagaimana Model Bahasa yang Telah Dilatih Sebelumnya Diselaraskan Menuju Kekokohan Permusuhan?".
NeurIPS(2021)
[PDF] [Kode]