2017 | Transformator | Perhatian adalah Yang Anda Butuhkan | Fokus penelitian awal adalah pada tugas penerjemahan. | TensorFlow + artikel |
2018 | GPT | Meningkatkan Pemahaman Bahasa dengan Pra-Pelatihan Generatif | Model Transformer pertama yang telah dilatih sebelumnya, digunakan untuk menyempurnakan berbagai tugas NLP dan memperoleh hasil yang canggih | |
2018 | BERT | BERT: Pra-pelatihan Transformator Dua Arah Dalam untuk Pemahaman Bahasa | Model besar lainnya yang telah dilatih sebelumnya, model ini dirancang untuk menghasilkan ringkasan kalimat yang lebih baik | PyTorch |
2019 | GPT-2 | Model Bahasa adalah Pembelajar Multitask Tanpa Pengawasan | Versi GPT yang lebih baik (dan lebih besar) yang tidak segera dirilis ke publik karena masalah etika | |
2019 | DistilBERT - BERT sulingan | DistilBERT, versi sulingan BERT: lebih kecil, lebih cepat, lebih murah, dan lebih ringan | BERT versi sulingan yang 60% lebih cepat, 40% lebih ringan dalam memori, dan masih mempertahankan 97% kinerja BERT | |
2019 | BART | BART: Menyangkal Pra-pelatihan Urutan-ke-Urutan untuk Pembuatan, Terjemahan, dan Pemahaman Bahasa Alami | Model besar yang telah dilatih sebelumnya menggunakan arsitektur yang sama dengan model Transformer asli. | |
2019 | T5 | Menjelajahi Batasan Pembelajaran Transfer dengan Transformator Teks-ke-Teks Terpadu | Model besar yang telah dilatih sebelumnya menggunakan arsitektur yang sama dengan model Transformer asli. | |
2019 | ALBERT | ALBERT: BERT Ringan untuk Pembelajaran Representasi Bahasa yang Diawasi Sendiri | | |
2019 | RoBERTa - Pendekatan Pra-Pelatihan BERT yang Dioptimalkan dengan Kuat | RoBERTa: Pendekatan Pra-Pelatihan BERT yang Dioptimalkan dengan Kuat | | |
2019 | CTRL | CTRL: Model Bahasa Transformator Bersyarat untuk Generasi Terkendali | | |
2019 | Transformator XL | Transformer-XL: Model Bahasa Penuh Perhatian Melampaui Konteks Panjang Tetap | Mengadopsi metodologi perulangan pada keadaan masa lalu ditambah dengan pengkodean posisi relatif yang memungkinkan ketergantungan jangka panjang | |
2019 | Diablo GPT | DialoGPT: Pra-pelatihan Generatif Berskala Besar untuk Menghasilkan Respon Percakapan | Dilatih mengenai 147 juta pertukaran seperti percakapan yang diambil dari rantai komentar Reddit selama periode dari tahun 2005 hingga 2017 | PyTorch |
2019 | ERNIE | ERNIE: Representasi Bahasa yang Ditingkatkan dengan Entitas Informatif | Dalam makalah ini, kami menggunakan korpora tekstual skala besar dan KG untuk melatih model representasi bahasa yang disempurnakan (ERNIE), yang dapat memanfaatkan sepenuhnya informasi leksikal, sintaksis, dan pengetahuan secara bersamaan. | |
2020 | GPT-3 | Model Bahasa adalah Pembelajar yang Sedikit Berkesempatan | Versi GPT-2 yang lebih besar lagi yang mampu melakukan berbagai tugas dengan baik tanpa memerlukan penyesuaian (disebut pembelajaran zero-shot) | |
2020 | ELEKTRA | ELECTRA: ENCODER TEKS PRA-PELATIHAN SEBAGAI DISKRIMINATOR BUKAN GENERATOR | | |
2020 | MBART | Pra-pelatihan Denoising Multibahasa untuk Terjemahan Mesin Neural | | |
2021 | CLIP (Pra-Pelatihan Gambar-Bahasa Kontrasif) | Mempelajari Model Visual yang Dapat Dipindahtangankan Dari Pengawasan Bahasa Alami | CLIP adalah jaringan saraf yang dilatih pada berbagai pasangan (gambar, teks). Hal ini dapat diinstruksikan dalam bahasa alami untuk memprediksi cuplikan teks yang paling relevan, berdasarkan gambar, tanpa secara langsung mengoptimalkan tugas tersebut, serupa dengan kemampuan zero-shot pada GPT-2 dan 3. | PyTorch |
2021 | DALL-E | Pembuatan Teks-ke-Gambar Zero-Shot | | PyTorch |
2021 | Menggali | Penskalaan Model Bahasa: Metode, Analisis & Wawasan dari Pelatihan Gopher | | |
2021 | Transformator Keputusan | Transformator Keputusan: Pembelajaran Penguatan melalui Sequence Modeling | Sebuah arsitektur yang menjadikan masalah RL sebagai pemodelan urutan bersyarat. | PyTorch |
2021 | GLam (Model Bahasa Generalis) | GLaM: Penskalaan Model Bahasa yang Efisien dengan Campuran Pakar | Dalam makalah ini, kami mengusulkan dan mengembangkan serangkaian model bahasa bernama GLaM (Generalist Language Model), yang menggunakan arsitektur campuran pakar yang jarang diaktifkan untuk meningkatkan kapasitas model sekaligus memerlukan biaya pelatihan yang jauh lebih sedikit dibandingkan dengan varian padat. | |
2022 | obrolanGPT/InstruksiGPT | Melatih model bahasa untuk mengikuti instruksi dengan umpan balik manusia | Model bahasa terlatih ini jauh lebih baik dalam mengikuti niat pengguna dibandingkan GPT-3. Model ini dioptimalkan (disempurnakan) menggunakan Reinforcement Learning with Human Feedback (RLHF) untuk mencapai dialog percakapan. Model tersebut dilatih menggunakan berbagai data yang ditulis oleh orang-orang untuk mendapatkan respons yang terdengar seperti manusia. | :-: |
2022 | Chinchilla | Pelatihan Model Bahasa Besar Komputasi-Optimal | Menggunakan anggaran komputasi yang sama seperti Gopher tetapi dengan parameter 70 miliar dan data 4x lebih banyak. | :-: |
2022 | LaMDA - Model Bahasa untuk Aplikasi Dialog | LaMDA | Ini adalah rangkaian model bahasa saraf berbasis Transformer yang dikhususkan untuk dialog | |
2022 | DQ-BART | DQ-BART: Model Urutan-ke-Urutan yang Efisien melalui Distilasi dan Kuantisasi Bersama | Usulkan untuk bersama-sama menyaring dan mengkuantisasi model, di mana pengetahuan ditransfer dari model guru dengan presisi penuh ke model siswa dengan presisi rendah yang dikuantisasi dan disaring. | |
2022 | Flamingo | Flamingo: Model Bahasa Visual untuk Pembelajaran Sedikit | Membangun model yang dapat dengan cepat diadaptasi ke tugas-tugas baru hanya dengan menggunakan sedikit contoh beranotasi merupakan tantangan terbuka bagi penelitian pembelajaran mesin multimodal. Kami memperkenalkan Flamingo, keluarga Model Bahasa Visual (VLM) dengan kemampuan ini. | |
2022 | Gato | Agen Generalis | Terinspirasi oleh kemajuan dalam pemodelan bahasa berskala besar, kami menerapkan pendekatan serupa untuk membangun agen generalis tunggal di luar bidang keluaran teks. Agen, yang kami sebut sebagai Gato, bekerja sebagai kebijakan generalis multi-modal, multi-tugas, dan multi-perwujudan. | |
2022 | GODEL: Pra-Pelatihan Skala Besar untuk Dialog yang Mengarahkan Tujuan | GODEL: Pra-Pelatihan Skala Besar untuk Dialog yang Mengarahkan Tujuan | Berbeda dengan model sebelumnya seperti DialoGPT, GODEL memanfaatkan fase baru pra-pelatihan yang dirancang untuk lebih mendukung adaptasi GODEL ke berbagai tugas dialog hilir yang memerlukan informasi di luar percakapan saat ini (misalnya, database atau dokumen) untuk menghasilkan tanggapan yang baik. | PyTorch |
2023 | GPT-4 | Laporan Teknis GPT-4 | Model ini sekarang menerima masukan multimodal: gambar dan teks | :-: |
2023 | BloombergGPT | BloombergGPT: Model Bahasa Besar untuk Keuangan | LLM berspesialisasi dalam domain keuangan yang dilatih berdasarkan sumber data Bloomberg yang luas | |
2023 | BUNGA | BLOOM: Model Bahasa Multibahasa Akses Terbuka Parameter 176B | BLOOM (BigScience Large Open-science Open-access Multilingual Language Model) adalah model bahasa Transformer khusus decoder yang dilatih pada korpus ROOTS, kumpulan data yang terdiri dari ratusan sumber dalam 46 bahasa alami dan 13 bahasa pemrograman (total 59) | |
2023 | Lama 2 | Llama 2: Open Foundation dan Model Obrolan yang Disempurnakan | | PyTorch #1 PyTorch #2 |
2023 | Claude | Claude | Claude dapat menganalisis 75 ribu kata (100 ribu token). GPT4 hanya dapat menghasilkan 32,7 ribu token. | |
2023 | Periksa MandiriGPT | SelfCheckGPT: Deteksi Halusinasi Kotak Hitam Tanpa Sumber Daya untuk Model Bahasa Besar Generatif | Pendekatan berbasis sampling sederhana yang dapat digunakan untuk memeriksa fakta model black-box dengan cara tanpa sumber daya, yaitu tanpa database eksternal. | |