Download Reading_groups - Unduh Kode Sumber Reading

Reading_groups

Kode sumber lainnya

1.0.0

Unduh

Sumber daya untuk topik hangat yang terkait dengan model bahasa pra-terlatih skala besar

Kekuatan Komputasi : Banyak bukti menunjukkan bahwa kemajuan dalam pembelajaran mesin sebagian besar didorong oleh komputasi, bukan penelitian, silakan merujuk pada "pelajaran pahit", dan sering ada fenomena kemunculan dan homogenisasi. Studi telah menunjukkan bahwa penggunaan komputasi kecerdasan buatan berlipat ganda setiap 3,4 bulan, sedangkan peningkatan efisiensi hanya dua kali lipat setiap 16 bulan. Di antara mereka, jumlah perhitungan terutama didorong oleh daya komputasi, sedangkan efisiensi didorong oleh penelitian. Ini berarti bahwa pertumbuhan komputasi secara historis mendominasi kemajuan dalam pembelajaran mesin dan subbidangnya. Ini lebih lanjut dibuktikan dengan kemunculan GPT-4. Meskipun demikian, kita masih perlu memperhatikan apakah akan ada arsitektur yang lebih ditumbangkan di masa depan, seperti S4. Sebagian besar hotspot penelitian NLP saat ini didasarkan pada LLM yang lebih canggih (~ 100b, $ 10^{23} $ Jepit). Secara khusus, chatgpt menggunakan lebih sedikit dari perhitungan pra-pelatihan (4,9+60 petaflops/s-days vs 3640 petaflops/s-days) dan umpan balik manusia ($ 500K, 20K jam, 13+33+31k data, dibandingkan dengan GPT- 3 $ 12.000k, ia merilis kemampuan dialog Model Big Model Big -nya dan menjadi populer. Oleh karena itu, perpustakaan ini melacak dan mengklasifikasikan artikel yang terkait dengan model bahasa pra-terlatih skala besar LLM, yang memungkinkan kita untuk memahami perbatasan dan melihat arah dengan jelas. Tentu saja, selain [Yayasan Teknologi Kekuatan Komputasi Besar], ada aspek -aspek lain: [Terobosan dalam Teknologi Model Besar], [ditingkatkan dalam kualitas data besar], [Lingkungan Ekologi Inovasi Terbuka], [Kolaborasi Tutup Tim], [Strong kemampuan teknik] dll.

Untuk lebih banyak makalah LLM Topik, silakan merujuk di sini dan di sini.

Makalah ( kategori kasar )

Pelatihan model, pengujian dan optimasi
Aplikasi dan LLM+
Analisis prinsip
Peningkatan teknologi
Survei dan Dataset

sumber

Kursus LLM
Gambar penting
Demo llm
Blog penting dan artikel yang dipilih sendiri
Pelatihan, penalaran, alat aplikasi (tidak dikompilasi)

Pelatihan dan optimalisasi model besar

【Pengujian pada GPT-4, Batasan】 Percakan Kecerdasan Umum Buatan: Eksperimen Awal dengan GPT-4

Kartu model
Video

【Makalah Instruksikan, termasuk SFT, PPO, dll., Salah satu artikel terpenting】 Model bahasa pelatihan untuk mengikuti instruksi dengan umpan balik manusia

【Pengawasan yang dapat diskalakan: Bagaimana manusia dapat terus meningkatkan model mereka setelah model mereka melebihi tugas mereka sendiri? 】 Mengukur kemajuan pada pengawasan yang dapat diskalakan untuk model bahasa besar

Model Kritik Diri untuk membantu evaluator manusia
Definisi: Kemampuan untuk memberikan pengawasan yang andal kepada model dalam bentuk label, sinyal hadiah, atau kritik yang akan tetap efektif setelah model mulai mencapai berbagai kinerja tingkat manusia.
Teknologi pengawasan yang dapat diskalakan dapat meningkatkan kapasitas dan penyelarasan model (mis., Menerapkan dan mencapai tujuan dengan cara yang diharapkan manusia).
Jika kita dapat menemukan paradigma pembelajaran yang diawasi berdasarkan model yang ada (tingkat di atas non-ahli, di bawah ahli) yang dapat meningkatkan kebenaran jawaban model, maka kita bisa mendapatkan pemahaman yang lebih baik tentang model tidak berarti mengandalkan para ahli. Sistem pakar.
Gagasan perspektif lain adalah untuk mendorong model dengan menggunakan beberapa petunjuk dan strategi dan hanya menerima jawaban yang diberikan oleh model berdasarkan bukti yang konsisten dan masuk akal. Tetapi teknologi dari sudut ini mungkin tidak cukup diskalakan. Tentu saja, teknologi apa pun yang dapat menyelesaikan tantangan tersebut dengan keandalan yang tinggi dapat mewakili kemajuan penting dalam pengawasan yang dapat diskalakan.
Solusi yang ada: Biarkan model yang ada membantu manusia dalam memperoleh pengetahuan untuk memungkinkan manusia menghasilkan pengawasan berkualitas tinggi.

【Definisi Penyelarasan, Diproduksi oleh DeepMind】 Penyelarasan Agen Bahasa

Asisten Bahasa Umum sebagai Laboratorium untuk Alignment

[Kertas retro, model dicari menggunakan CCA+] meningkatkan model bahasa dengan mengambil dari triliunan token

Model bahasa yang menyempurnakan dari preferensi manusia

Melatih asisten yang membantu dan tidak berbahaya dengan pembelajaran penguatan dari umpan balik manusia

【Model besar dalam bahasa Cina dan Inggris, melebihi GPT-3】 GLM-130B: Model pra-terlatih bilingual terbuka

【Optimalisasi Target Pra-Pelatihan】 UL2: Paradigma Pembelajaran Bahasa yang Menyatu

【Tolok ukur baru Alignment, perpustakaan model dan metode baru】 Apakah pembelajaran penguatan (bukan) untuk pemrosesan bahasa alami?: Tolok Ukur, Baseline, dan Blok Bangunan untuk Optimalisasi Kebijakan Bahasa Alami Optimalisasi Bahasa Alami

【MLM tanpa tag [topeng] melalui Teknologi】 Kekurangan representasi dalam pemodelan bahasa bertopeng

【Teks untuk pelatihan gambar mengurangi kebutuhan kosa kata dan menolak serangan tertentu】 pemodelan bahasa dengan piksel

Lexmae: pretraining leksikon-bottlenecked untuk pengambilan skala besar

Inkoder: Model Generatif untuk Pengisian dan Sintesis Kode

[Cari gambar terkait teks untuk model bahasa pra-pelatihan]

Model Bahasa Mandiri Non-Monotonik

【Perbandingan dan penyempurnaan umpan balik negatif melalui desain propt】 Rantai Hindsight menyelaraskan model bahasa dengan umpan balik

Artikel Terkait: Kebijaksanaan Hindsight Membuat Model Bahasa Pengikut Instruksi yang Lebih Baik

【Model Sparrow】 Meningkatkan penyelarasan agen dialog melalui penilaian manusia yang ditargetkan

[Gunakan parameter model kecil untuk mempercepat proses pelatihan model besar (tidak mulai dari awal)] belajar menumbuhkan model pretrain untuk pelatihan transformator yang efisien

[MOE MOD Model Fusion Pengetahuan Semi-Parametrik untuk Berbagai Sumber Pengetahuan] Pengetahuan-dalam-Konteks: Menuju Model Bahasa Semi-Parametrik yang Berpengetahuan

[Metode gabungkan untuk menggabungkan beberapa model terlatih pada dataset yang berbeda] fusi pengetahuan dataless dengan menggabungkan bobot model bahasa

[Sangat menginspirasi bahwa mekanisme pencarian menggantikan arsitektur umum FFN dalam transformator (× 2.54 waktu) untuk memisahkan pengetahuan yang disimpan dalam parameter model] Model Bahasa dengan memori Plug-in Knowldge

【Secara otomatis menghasilkan data tuning instruksi untuk pelatihan GPT-3】 Instruksi diri: Menyelaraskan model bahasa dengan instruksi yang dihasilkan sendiri

【Data mirip dengan Yizhong Wang yang secara otomatis menghasilkan instruksi, yang ditujukan untuk T0】 Instruksi yang tidak wajar: Tuning Model Bahasa dengan (hampir) tidak ada tenaga kerja manusia
Penilaian penerimaan model bahasa tidak selalu kuat untuk konteks
Super-natural Instruksi: Generalisasi melalui instruksi deklaratif pada 1600+ tugas NLP
(Flan-t5-cot) 【COT fine tuning】 Model bahasa yang dibagikan instruksi penskalaan

- gambar

Menuju model bahasa bertopeng yang bergantung secara kondisional

【Secara iteribrate secara tidak sempurna menghasilkan koreksi independen, artikel tindak lanjut Sean Welleck】 menghasilkan urutan dengan belajar untuk mengoreksi diri sendiri

Prediksi: Umpan balik AI akan segera menggantikan umpan balik pengguna manusia untuk pembaruan model
Menuju meningkatkan chatbot domain terbuka dengan umpan balik manusia
Ide serupa 1. AI Konstitusi: tidak berbahaya dari umpan balik AI
Ide serupa 2. Menemukan perilaku model bahasa dengan evaluasi model yang ditulis
Aplikasi: [Openai] Ringkasan Buku dengan Umpan Balik Manusia secara Rekursif

[Pembelajaran berkelanjutan: Tambahkan propt untuk tugas baru, dan propt tugas sebelumnya dan model besar tetap tidak berubah] prompt progresif: pembelajaran berkelanjutan untuk model bahasa tanpa lupa

[EMNLP 2022, Pembaruan Berkelanjutan dari Model] MEMPROMPT: Pengeditan cepat yang dibantu memori dengan umpan balik pengguna

【Arsitektur saraf baru (folnet), yang berisi bias induksi logis orde pertama】 representasi bahasa pembelajaran dengan bias induktif logis

Ganlm: pra-pelatihan encoder-decoder dengan diskriminator tambahan

Model Model Bahasa Pretraining Berdasarkan Model ruang negara bagian, melebihi Bert】 pretraining tanpa perhatian

[Pertimbangkan umpan balik manusia selama pra-pelatihan] Model bahasa pretraining dengan preferensi manusia

[Model Llama Open Source Meta, 7B-65B, melatih lebih banyak model kecil berlabel dari biasanya, mencapai kinerja optimal di bawah berbagai anggaran inferensi] llama: model bahasa yayasan terbuka dan efisien

[Mengajar model bahasa besar untuk mendebug diri sendiri dan menjelaskan kode yang dihasilkan melalui sejumlah kecil contoh, tetapi mereka telah digunakan seperti ini sekarang] mengajarkan model bahasa besar untuk mendebug diri sendiri

Serangkaian makalah dan alat yang diterbitkan tentang kemampuan koreksi diri dari model bahasa besar, babyagi, auto-gpt
Ide serupa: 0. [Model mencatat dan mencerminkan kesalahan yang telah Anda buat] Refleksi: Agen otonom dengan memori dinamis dan refleksi diri
Ide serupa: 1. [Model berulang melalui komunikasi dan koreksi iteratif dari output masing-masing] Dera: Meningkatkan Penyelesaian Model Bahasa Besar dengan Agen Penyelesaian yang Diaktifkan Dialog

Seberapa jauh unta bisa pergi?

Lima: Lebih sedikit lebih banyak untuk penyelarasan

【Tree-of-Thought, semakin seperti Alphago】 Penyelesaian Masalah yang Disengaja Dengan Model Bahasa Besar

Aplikasi dan LLM+

【Metode penalaran multi-langkah untuk menerapkan ICL sangat menginspirasi】 Bereaksi: Sinergis penalaran dan bertindak dalam model bahasa

【Menggunakan LLM saja tidak cukup untuk membuat aplikasi yang benar -benar kuat, dan kekuatan nyata akan muncul ketika LLM dikombinasikan dengan sumber komputasi atau pengetahuan lainnya]
【Alat】 Langchain - Membangun Aplikasi dengan LLM melalui Komposabilitas
【Survei】 Model Bahasa augmented: survei
Alat alat
Ide serupa 0. Talm: Alat Augmented Bahasa Model
Ide serupa 1. Demonstrasi-pencarian-prediksi: menyusun pengambilan dan model bahasa untuk NLP yang intensif pengetahuan
Pikiran serupa 2. Lambada: rantai mundur untuk penalaran otomatis dalam bahasa alami
Ide serupa 3. [Pilih dan Penalaran] Pemilihan-Inferensi: Mengeksploitasi Model Bahasa Besar untuk Penalaran Logis yang Dapat Ditayangkan
Ide serupa 4. Model bahasa sebagai model agen
Pikiran serupa 5. Dorong adalah pemrograman: bahasa kueri untuk model bahasa besar
Ide serupa 6. 【Neurips 22 '】 Cascades Model Bahasa
Ide serupa 7. Seni: Penalaran multi-langkah otomatis dan penggunaan alat untuk model bahasa besar
Agen generatif: simulacra interaktif perilaku manusia

【COT secara langsung menghasilkan kode program, dan kemudian memungkinkan Python Interpreter mengeksekusi】 Program pemikiran yang diminta: Menghilangkan perhitungan dari penalaran untuk tugas penalaran numerik

Artikel Terkait: [EMNLP 22 '] Model bahasa kode adalah beberapa pelajar yang masuk akal
【Grup Heng JI】 Code4Struct: Pembuatan kode untuk prediksi terstruktur beberapa tembakan dari Bahasa Alami Pal: Model Bahasa Bantuan Program
【Qing Lyu, Chris Callison-Burch Group】 Penalaran Rantai yang Setia

[Model besar secara langsung menghasilkan konteks bukti] menghasilkan daripada mengambil: model bahasa besar adalah generator konteks yang kuat

【Model Penulisan dengan 4 Operasi Spesifik】 Peer: Model Bahasa Kolaboratif

【Menggabungkan Python, Eksekutor SQL dan Model Besar】 Model Bahasa yang Mengikat dalam Bahasa Simbolik

[Ambil kode pembuatan dokumen] Docprompting: Menghasilkan kode dengan mengambil dokumen

[Akan ada banyak artikel di landasan+llm di seri berikutnya] LLM-Planner: beberapa perencanaan ground untuk agen yang diwujudkan dengan model bahasa besar

Lakukan semampu saya, bukan seperti yang saya katakan: bahasa landasan dalam biaya robot
https://say-can.github.io/

【Generasi Diri (Diverifikasi Menggunakan Python) Data Pelatihan】 Model bahasa dapat mengajar diri mereka sendiri untuk memprogram dengan lebih baik

Artikel terkait: Mengkhususkan model bahasa yang lebih kecil menuju penalaran multi-langkah
Bintang: Penalaran bootstrap dengan penalaran, dari Neurips 22 (menghasilkan data COT untuk fine-tuning model), menyebabkan serangkaian artikel COT yang mengajar model kecil.
Ide serupa [Distilasi Pengetahuan] Mengajar Model Bahasa Kecil untuk Beralih dan Belajar dengan Menyaring Konteks
Ide-Ide Serupa Kaist dan kelompok Xiang Ren ([COT's Rationale Fine-Tuning (Profesor)] Pinto: Alasan Bahasa yang Setia Menggunakan Rasional yang Dihasilkan Segera, dll.) Dan model bahasa besar adalah penalaran guru
ETH [COT Data melatih masalah dekomposisi dan model pemecahan masalah secara terpisah] menyuling kemampuan penalaran multi-langkah dari model bahasa besar menjadi model yang lebih kecil melalui dekomposisi semantik

【Biarkan model kecil mempelajari kemampuan cot】 Distilasi pembelajaran dalam konteks: mentransfer kemampuan belajar beberapa-shot dari model bahasa pra-terlatih

【Model Besar Mengajarkan Model Kecil Cot】 Model Bahasa Besar adalah Guru yang Beralasan

[Model besar menghasilkan bukti (pembacaan) dan kemudian melakukan pertanyaan dan jawaban buku tertutup sampel kecil]

[Metode Bahasa Alami dari Alasan Induktif] Model Bahasa sebagai Alasan Induktif

[GPT-3 digunakan untuk anotasi data (seperti klasifikasi emosional)] adalah GPT-3 annotator data yang baik?

【Model untuk augmentasi data berdasarkan pelatihan multitasking untuk lebih sedikit sampel augmentasi data】 Knowda: model campuran pengetahuan all-in-one untuk augmentasi data di NLP sumber daya rendah

【Pekerjaan perencanaan prosedural, tidak tertarik pada waktu menjadi】 perencanaan prosedural simbolik neuro dengan diminta akal sehat

[Tujuan: Hasilkan artikel yang benar secara faktual untuk pertanyaan dengan mendarat di Corpus Web Besar

【Menggabungkan hasil simulator fisika eksternal dalam konteks】 Mata pikiran: Model bahasa ground beralasan melalui simulasi

[Ambil tugas meningkatkan cot untuk melakukan pengetahuan intensif] pengambilan interleaving dengan penalaran rantai untuk pertanyaan multi-langkah yang intensif pengetahuan

【Kontras Potensi (biner) pengetahuan dalam model bahasa pengakuan tanpa pengawasan】 Menemukan pengetahuan laten dalam model bahasa tanpa pengawasan

[Grup Percy Liang, mesin pencari tepercaya, hanya 51,5% dari kalimat yang dihasilkan didukung sepenuhnya oleh kutipan] mengevaluasi verifikasi dalam mesin pencari generatif

Progressive-hint corongan meningkatkan penalaran dalam model bahasa besar

Penyelarasan diri yang didorong oleh prinsip model bahasa dari awal dengan pengawasan manusia minimal

Menilai LLM-AS-A-Hakim dengan MT-Bench dan Chatbot Arena

Analisis prinsip

[Menurut saya, ini adalah salah satu artikel terpenting. pelatihan, dan lebar dan kedalaman detail arsitektur seperti lebar dan kedalaman.

[Salah satu artikel terpenting lainnya, Chinchilla, di bawah komputasi terbatas, model optimal bukan model terbesar, tetapi model yang lebih kecil yang dilatih dengan lebih banyak data (60-70b)] pelatihan komputasi model bahasa besar optimal optimal besar

[Arsitektur dan sasaran optimisasi mana yang membantu generalisasi sampel nol] Arsitektur model bahasa apa dan pekerjaan objektif yang paling baik untuk generalisasi zero-shot?

【Grokking "Epiphany" Proses Pembelajaran Mengorisasi-> Formasi Sirkuit-> Pembersihan】 Langkah-langkah kemajuan untuk grokking melalui interpretasi mekanistik

[Selidiki karakteristik model berbasis pencarian dan temukan bahwa keduanya memiliki penalaran terbatas] dapat membuat model bahasa Retriever-Agusted?

Gagasan pencarian + llm adalah arah berikutnya, tetapi itu bukan satu -satunya jawaban.
[Analisis dan penelitian tentang kapan menggunakan pengetahuan eksternal, yaitu, pengalihan antara pengetahuan eksternal dan pengetahuan parameter] model bahasa besar dengan memori kerja yang dapat dikendalikan
Pencarian Kembali: Membuat Pakar Domain Keluar dari Dilettants
Pertanyaan yang dikaitkan dengan pertanyaan: Evaluasi dan pemodelan untuk model bahasa besar yang dikaitkan

[Kerangka Evaluasi Interaksi Bahasa Manusia-Ai] Mengevaluasi Interaksi Model Bahasa Manusia

Artikel serupa yang mengukur utilitas manusia dari rasional teks bebas dalam kolaborasi manusia-AI

Algoritma pembelajaran apa yang sedang dibahas?

[Gunakan ICL untuk mempelajari prediksi tindakan setelah pembelajaran penguatan, benar-benar pintar] pembelajaran reformer dalam-konteks dengan distilasi algoritma

【Pengeditan model, ini adalah topik hangat】 Memori pengeditan massal dalam transformator

[Sensitivitas model terhadap konteks yang tidak relevan, menambahkan informasi yang tidak relevan ke dalam contoh -contoh dalam prompt dan menambahkan instruksi yang mengabaikan konteks yang tidak relevan sebagian menyelesaikan] model bahasa besar dapat dengan mudah terganggu oleh konteks yang tidak relevan

【Cot Zero-Shot akan menunjukkan bias dan toksisitas di bawah masalah sensitif】 pada pemikiran kedua, jangan berpikir langkah demi langkah!

【Cot dari model besar memiliki kemampuan lintas bahasa】 Model bahasa adalah alasan rantai multibahasa

[Semakin rendah kebingungan dari urutan prompt yang berbeda, semakin baik kinerja] Demosi pengabaian dalam model bahasa melalui estimasi kebingungan

[Tugas Resolusi Implicity Biner dari Model Besar, Saran ini sulit dan tidak ada fenomena penskalaan] Model bahasa besar bukanlah komunikator nol-shot (https://github.com/google/big-bence/tree/main/bigbench/ Benchmark_Tasks/ implicity)

【Diminta berbasis kompleksitas untuk penalaran multi-langkah

Tujuan: Untuk meningkatkan kegunaan COT sendiri terkait erat dengan analisis utilitas cot
[Pilih sampel tunggal setelah generasi dan kemudian pilih kombinasi] Pilihan Penjelasan Menggunakan data yang tidak berlabel untuk pembelajaran dalam konteks
【Rantai pemikiran otomatis yang diminta dalam model bahasa besar
[Lakukan penyesuaian sekunder terhadap penjelasan pembuatan COT, gunakan modul pengembalian dengan parameter + optimasi entropi informasi] Penjelasan regenerasi melalui bottleneck informasi

Apa yang penting dalam pemangkasan terstruktur model bahasa generatif?

[Dataset Ambibench, Ambiguitas Tugas: Model RLHF penskalaan berkinerja terbaik dalam tugas -tugas disambiguating. Fine-tuning lebih bermanfaat daripada beberapa penembakan yang mendorong】 ambiguitas tugas pada manusia dan model bahasa

【Tes GPT-3, termasuk memori, kalibrasi, bias, dll.】 Meminta GPT-3 menjadi dapat diandalkan

[Studi OSU Bagian COT mana yang efektif untuk kinerja] menuju pemahaman dorongan rantai-pemikiran: studi empiris tentang apa yang penting

Pikiran serupa1 Penjelasan pelengkap untuk pembelajaran dalam konteks yang efektif (UT Austin, Xi Ye, Greg Durrett)
Teks dan pola pemikiran2 yang serupa: Untuk rantai pemikiran yang efektif, dibutuhkan dua untuk tango

[Penelitian tentang model lintas-bahasa dari dorongan diskrit] Dapatkah ekstraksi informasi diskrit menggeneralisasi seluruh model bahasa?

【Laju memori adalah hubungan linier logaritmik dengan ukuran model, panjang awalan dan laju pengulangan dalam pelatihan】 Mengukur hafalan di seluruh model bahasa saraf

【Sangat menginspirasi, menguraikan masalah menjadi sub-pertanyaan melalui iterasi GPT dan menjawabnya】 mengukur dan mempersempit kesenjangan komposisi dalam model bahasa

[Apakah atau kapan penelitian akan efektif untuk membaca dalam jawaban langkah demi langkah, nol sampel dan sumber daya rendah efektif] Kapan dekomposisi membantu membaca mesin?
Ide serupa yang paling tidak paling diminta memungkinkan penalaran kompleks dalam model bahasa besar
Ide serupa yang berurutan meminta untuk menguraikan pertanyaan kompleks

[Tes analog GPT-3 mirip dengan pertanyaan kecerdasan pegawai negeri] yang muncul sebagai penalaran analog dalam model bahasa besar

【Pelatihan Teks Pendek, Pengujian Teks Panjang, Evaluasi Model Variabel Panjang Adaptasi】 Transformator Panjang-Ekstrapolasi

[Ketika tidak mempercayai model bahasa: menyelidiki efektivitas dan keterbatasan ingatan parametrik dan non-parametrik

【ICL adalah bentuk pembaruan gradien lain】 Mengapa GPT dapat belajar dalam konteks?

Artikel Terkait: Transformers Belajar dalam Konteks berdasarkan Keturunan Gradien

Apakah GPT-3 seorang psikopat?

[Penelitian tentang proses pelatihan model opt dalam ukuran yang berbeda, dan menemukan bahwa kebingungan adalah indikator ICL] lintasan pelatihan model bahasa di seluruh skala

[EMNLP 2022, Corpus Bahasa Inggris Murni yang sudah terlatih berisi bahasa lain, dan kemampuan bahasa lintas model mungkin berasal dari kebocoran data] Kontaminasi bahasa membantu menjelaskan kemampuan lintas-bahasa dari model pretrained Inggris

[Mengesampingkan prior semantik dan menggunakan informasi dalam propt adalah kemampuan lonjakan] model bahasa yang lebih besar melakukan pembelajaran dalam konteks secara berbeda

【Temuan EMNLP 2022】 Model bahasa apa yang akan dilatih jika Anda memiliki satu juta jam GPU?

Peningkatan teknologi (seperti teknologi generasi, rekayasa cepat, indikator, kredibilitas, dll.)

[Memperkenalkan teknologi CFG selama penalaran sangat meningkatkan kemampuan kepatuhan instruksi dari model kecil] tetap pada topik dengan panduan bebas classifier

【Latih model llama Anda sendiri dengan Openai's GPT-4, dan saya hanya bisa mengatakan saya mengagumi Anda】 Tuning Instruksi dengan GPT-4

Refleksi: agen otonom dengan memori dinamis dan refleksi diri

【Pembelajaran cepat gaya yang dipersonalisasi, opt】 permintaan yang dapat diperpanjang untuk model bahasa

[Mempercepat decoding model besar, menggunakan konsensus langsung antara model kecil dan model besar yang akan digunakan beberapa kali sekaligus, input akan sangat lambat jika panjang] mempercepat decoding model bahasa besar dengan pengambilan sampel khusus

[Gunakan soft prompt untuk mengurangi penurunan kemampuan ICL yang disebabkan oleh fine tuning, menyempurnakan tahap pertama, menyempurnakan tahap kedua] menjaga kemampuan belajar dalam konteks dalam fine-tuning model bahasa besar

【Tugas parsing semantik, metode pemilihan sampel ICL, Codex dan T5-Large】 Beragam demonstrasi meningkatkan generalisasi komposisi dalam konteks

【Metode optimasi baru untuk pembuatan teks】 Menyesuaikan model pembuatan bahasa di bawah jarak variasi total

[Estimasi ketidakpastian pembuatan bersyarat, menggunakan pengelompokan semantik yang dikombinasikan dengan beberapa output pengambilan sampel untuk memperkirakan entropi kluster] ketidakpastian semantik: invarian linguistik untuk estimasi ketidakpastian dalam generasi bahasa alami

Artikel terkait: 1. Model bahasa (kebanyakan) tahu apa yang mereka ketahui
Artikel terkait: 2. Model Mengajar untuk mengungkapkan ketidakpastian mereka dalam kata -kata
Artikel terkait: 3. [Bagaimana ekspresi bahasa mempengaruhi kalibrasi dan akurasi, dan metode ekspresi mana yang terbaik? 】 Menavigasi area abu -abu: ekspresi kepercayaan yang berlebihan dan ketidakpastian dalam model bahasa
Artikel Terkait: 4. Mengurangi Keefonfigulan Agen Percakapan Melalui Kalibrasi Linguistik
Meta-analisis kalibrasi: Akankah kalibrasi perubahan model besar karena ukuran model, arsitektur model, instruksi yang berbeda, konteks yang berbeda, dan domain tugas?
Apa metode kalibrasi optimal untuk pembuatan dialog domain terbuka? Bagaimana cara meningkatkan kinerja kalibrasi model, fine-tuning, rlhf, penyetelan instruksi?
Apakah model besar benar -benar dikalibrasi untuk memahami masalah daripada mendapatkan penilaian kredibilitas yang baik melalui bias statistik? Apakah itu seperti manusia bahwa ada penipuan, mengetahui bahwa Anda tidak mengerti, tetapi berpura -pura tahu? Bagaimana cara mengevaluasi ini?
Jika model besar memiliki kalibrasi yang baik, apa yang bisa kita lakukan selanjutnya, bagaimana kita dapat menerapkannya pada aplikasi seperti pembuatan dialog?

Go-tuning: Meningkatkan kemampuan belajar zero-shot dari model bahasa yang lebih kecil

【Metode pembuatan teks yang sangat menginspirasi di bawah kendala teks gratis】 pembuatan teks yang dapat dikendalikan dengan kendala bahasa

[Saat menghasilkan prediksi, gunakan kesamaan untuk memilih frasa alih -alih token softmax] pemodelan bahasa bertopeng nonparametrik

[Metode ICL untuk teks panjang] Windows konteks paralel meningkatkan pembelajaran dalam-konteks model bahasa besar

【Sampel model instruktur yang menghasilkan ICL dengan sendirinya】 Model bahasa besar yang memicu diri sendiri untuk QA domain terbuka

【Mekanisme Transfer dan Perhatian memungkinkan ICL untuk memasukkan lebih banyak sampel anotasi】 Didorong terstruktur: Penskalaan pembelajaran dalam konteks ke 1.000 contoh

Kalibrasi momentum untuk pembuatan teks

【Dua metode pemilihan sampel ICL, percobaan berdasarkan OPT dan GPTJ】 Kurasi data yang cermat menstabilkan pembelajaran dalam konteks

【Analisis indikator evaluasi ungu muda (Pillutla et al.)】 Tentang kegunaan embedding, cluster dan string untuk evaluasi pembuatan teks

Promptagator: beberapa pengambilan padat beberapa kali dari 8 contoh

[Tiga Cobblers, Zhuge Liang] Konsistensi diri meningkatkan penalaran rantai pemikiran dalam model bahasa

【Gunakan pengetahuan sebagai referensi untuk Cobblers】 Memikirkan Kembali dengan Pengambilan: Kesimpulan Model Bahasa Besar yang Setia

[Balikkan, input, dan label menghasilkan instruksi untuk kondisi] Tebak instruksi!

Derivasi Derivasi Terbalik LLM Verifikasi Diri】 Model bahasa besar adalah alasan dengan verifikasi diri sendiri

【Metode untuk Pencarian - Skenario Keselamatan Di bawah proses menghasilkan bukti】 foveate, atribut, dan rasionalisasi: Menuju AI yang aman dan dapat dipercaya

[Estimasi kepercayaan fragmen yang diekstraksi dengan informasi yang dihasilkan teks berdasarkan pencarian balok] Bagaimana pencarian balok meningkatkan estimasi kepercayaan level rentang dalam pelabelan urutan generatif?

SPT: tuning prompt semi-parametrik untuk multitask yang diminta pembelajaran

【Diskusi tentang Ringkasan Label Emas Ringkasan】 Ringkasan teks dengan ekspektasi Oracle

【Metode Deteksi OOD berdasarkan jarak Mars】 Deteksi out-of-distribusi dan generasi selektif untuk model bahasa bersyarat

[Modul Perhatian Mengintegrasikan Prompt untuk Memprediksi Level Sampel] Model Ensemble Alih-alih Fusi Prompt: Metode Transfer Pengetahuan-Khusus Sampel untuk beberapa Tuning Prompt beberapa-shot

【Prompt untuk beberapa tugas dengan dekomposisi dan distilasi menjadi satu prompt】 Multitask Prompt Tuning memungkinkan pembelajaran transfer yang efisien parameter

[Indikator evaluasi dari penalaran langkah demi langkah teks yang dihasilkan dapat digunakan sebagai topik untuk dibagikan waktu berikutnya] Roscoe: Serangkaian metrik untuk mencetak penalaran langkah demi langkah

[Kalibrasi kemungkinan urutan meningkatkan generasi bahasa bersyarat]

【Metode serangan teks berdasarkan optimasi gradien】 TextGrad: Memajukan evaluasi ketahanan dalam NLP dengan optimasi yang digerakkan oleh gradien

[Pemodelan GMM Batas Klasifikasi Keputusan ICL Untuk mengkalibrasi] Kalibrasi prototipikal untuk pembelajaran beberapa shot dari model bahasa

【Masalah penulisan ulang, dan metode agregasi ICL berbasis grafik】 Tanyakan apa saja: Strategi sederhana untuk mendorong model bahasa

[Database untuk memilih kandidat yang baik sebagai ICLS dari kumpulan contoh yang tidak ternotasi] Anotasi selektif membuat model bahasa lebih baik beberapa pelajar shot

PromptBoosting: Klasifikasi teks kotak hitam dengan sepuluh operan maju

Serangan backdoor yang dipandu perhatian terhadap Transformers

【Posisi Prompt Posisi Label Otomatis】 Model bahasa pra-terlatih dapat sepenuhnya menjadi pelajar zero-shot

[Kompres panjang vektor input FID dan order ulang saat output ke peringkat dokumen output] FID-LIGH

【Penjelasan tentang Generasi Model Besar】 Pinto: Penalaran Bahasa yang Setia Menggunakan Rasional yang Didorong

【Temukan subset dampak pra-pelatihan】 orca: menafsirkan model bahasa yang diminta melalui lokasi pendukung lokasi di lautan data pretraining

[Proyek Prompt, yang ditujukan untuk instruksi, menghasilkan model penyaringan besar tahap pertama dan dua tahap] adalah insinyur prompt tingkat manusia

Pengetahuan yang tidak belajar untuk mengurangi risiko privasi dalam model bahasa

Mengedit model dengan aritmatika tugas

[Jangan masukkan instruksi dan sampel setiap kali, ubah menjadi modul yang efisien parameter,] Petunjuk: Tuning Instruksi Hypernetwork untuk Generalisasi Zero-Shot yang efisien

[Metode pembuatan tampilan ICL tanpa pemilihan sampel manual] Z-ICL: Pembelajaran dalam konteks nol-shot dengan demonstrasi semu

[Instruksi tugas dan teks menghasilkan penyematan bersama] satu embedder, tugas apa pun: embeddings teks yang disetel instruksi

【Model Besar Mengajar Model Kecil Cot】 Pisau: Distilasi Pengetahuan dengan Rasional teks bebas

[Masalah ketidakkonsistenan antara sumber dan target segmentasi kata dari model pembuatan ekstraksi informasi] Konsistensi tokenisasi penting untuk model generatif pada tugas NLP ekstraktif

Parsel: Kerangka kerja bahasa alami yang terpadu untuk penalaran algoritmik

[Pemilihan sampel ICL, pemilihan fase pertama dan penyortiran fase kedua] Pembelajaran dalam konteks self-adaptif

[Bacaan intensif, metode seleksi tanpa pengawasan yang dapat dibaca, GPT-2] Menuju tuning prompt yang dapat dibaca manusia: Kubrick's the Shining adalah film yang bagus, dan prompt yang bagus juga

Survei dan Dataset

【Tes dataset prontoqa kemampuan inferensi cot dan menemukan bahwa kemampuan perencanaan masih terbatas】 model bahasa dapat (jenis) alasan: analisis formal sistematis rantai-pemikiran

【Dataset Penalaran】 WikiWhy: Menjawab dan menjelaskan pertanyaan sebab dan efek

【Dataset Penalaran】 Jalan: Benchmark Penalaran dan Penjelasan Struktur Multi-Tugas

【Dataset Penalaran, Membandingkan OPT pra-pelatihan dan penyempurnaan, termasuk model fine-tuning COT】 Peringatan: mengadaptasi model bahasa dengan tugas penalaran

[Ringkasan Penalaran Terbaru oleh Tim Zhang Ningyu dari Universitas Zhejiang] Penalaran dengan Model Bahasa yang Didorong: Survei

[Ringkasan Teknologi dan Arah Generasi Teks oleh Tim Xiao Yanghua di Fudan] Memanfaatkan Pengetahuan dan Penalaran untuk Generasi Bahasa Alami seperti Manusia: Tinjauan Singkat

[Ringkasan Artikel Penalaran Terbaru, Jie Huang dari UIUC] Menuju Penalaran dalam Model Bahasa Besar: Survei

【Ulasan tugas, kumpulan data, dan metode penalaran matematika dan DL】 Survei pembelajaran yang mendalam untuk penalaran matematika

Survei tentang Pemrosesan Bahasa Alami untuk Pemrograman

Dataset Pemodelan Hadiah:

Dataset ini disediakan oleh Stiennon et al. Dataset ini memiliki dua bagian: perbandingan dan sumbu. Di bagian perbandingan, annotator manual diminta untuk memilih yang terbaik dari dua ringkasan. Di bagian sumbu, annotator manual mencetak kualitas ringkasan berdasarkan skala Likert. Bagian perbandingan hanya memiliki pelatihan dan pemisahan verifikasi, sedangkan bagian sumbu hanya memiliki pengujian dan pemisahan verifikasi. Abstrak yang digunakan untuk melatih model hadiah di koran berasal dari TL; DR Dataset. Validasi dan data uji lainnya berasal dari TL; Dataset DR, artikel CNN, dan artikel Daily Mail. https://huggingface.co/datasets/openai/summarize_from_feedback
Dataset ini berasal dari Ganguli et al. 3 Salah satu contoh termasuk sepasang percakapan antara manusia dan chatbots. Manusia lebih suka salah satu dari dua percakapan ini. https://huggingface.co/datasets/anthropic/hh-rlhf
Dataset ini dari Nakano et al. Setiap contoh dalam dataset berisi model jawaban untuk sepasang pertanyaan, serta metadata terkait. Setiap jawaban memiliki skor preferensi dari manusia yang dapat digunakan untuk menentukan mana dari dua jawaban yang lebih baik. https://huggingface.co/datasets/openai/webgpt_comparisons
SHP是一个由385K个集体人类对18个不同主题领域的问题/指示的反应的偏好组成的数据集，从烹饪到法律咨询。这些偏好旨在反映一种回答对另一种回答的帮助程度，并打算用于训练RLHF奖励模型和NLG评估模型（例如SteamSHP）。 https://huggingface.co/datasets/stanfordnlp/SHP

Red-teaming数据集，harmless vs. helpful， RLHF +scale更难被攻击（另一个有效的技术是CoT fine-tuning）:

对于什么是成功的攻击，人类之间总体上达成的共识很低。
Meta's Bot Adversarial Dialog dataset https://github.com/facebookresearch/ParlAI/tree/main/parlai/tasks/bot_adversarial_dialogue
Anthropic's red-teaming attempts https://huggingface.co/datasets/Anthropic/hh-rlhf/tree/main/red-team-attempts
AI2's RealToxicityPrompts https://huggingface.co/datasets/allenai/real-toxicity-prompts