Tiga tukang sepatu dengan kecerdasan mereka digabungkan setara dengan Zhuge Liang sang dalang. --- sebuah pepatah lama di Tiongkok.
Kami memperkenalkan kata-kata ajaib zero-shot baru yang meningkatkan kemampuan penalaran model bahasa: Diskusi Panel !
Dalam konferensi dan lokakarya, selalu ada diskusi pidana di antara para ahli, dan orang-orang bertukar pendapat mengenai suatu topik tertentu, meningkatkan pemahaman konsep-konsep baru, mengubah perspektif berpikir, dan mencapai pemahaman yang lebih komprehensif tentang perdebatan atau diskusi yang ada.
Gambar 1: Diskusi panel antara Jack Ma dan Elon Musk, WAIC, 2019:
Ide ini terkait dengan upaya konsistensi diri (Wang, Xuezhi, dkk.) (karena banyak pakar mungkin berbeda pendapat satu sama lain selama diskusi panel.)
Kami mengevaluasi efektivitas metode prompt yang diusulkan pada dataset GSM8K, menggunakan gpt-3.5-turbo api.
Biaya untuk mengevaluasi setiap permintaan pada kumpulan data pengujian 1k GSM8k kurang dari 2 USD.
Diskusi panel kami mencapai Kinerja Terbaik , dan studi ablasi menunjukkan pentingnya manfaat setiap elemen. Terbaik Kedua , dan Terbaik Ketiga masing-masing ditandai dengan format garis bawah dan miring .
MetodeDataset | GSM8K (uji 1k) | Konten Cepat | Referensi |
---|---|---|---|
Tanpa Prompt | 0,789 | Jawabannya adalah: | - |
CoT Tembakan Nol | 0,854 | Mari kita pikirkan langkah demi langkah: | (Kojima, Takeshi, dkk. 2022) |
Peningkatan CoT APE | 0,845 | Mari kita selesaikan ini selangkah demi selangkah untuk memastikan kita mendapatkan jawaban yang benar: | (Zhou, Yongchao, dkk. 2023) |
Anjuran ToT | 0,842 | Bayangkan tiga pakar berbeda menjawab pertanyaan ini. Semua ahli akan menuliskan 1 langkah pemikirannya, kemudian membagikannya kepada kelompok. Kemudian semua pakar akan melanjutkan ke langkah berikutnya, dan seterusnya. Jika ada pakar yang menyadari bahwa mereka salah, maka mereka akan keluar dari sana. | (Repo Dave Hulbert 2023) |
PanelGPT | 0,899 | 3 orang ahli mendiskusikan pertanyaan tersebut dengan diskusi panel , mencoba menyelesaikannya selangkah demi selangkah, dan memastikan hasilnya benar dan menghindari penalti : | (Repo ini, 18 Juli 2023) |
PanelGPT tanpa AE dan EA | 0,878 | 3 orang ahli sedang mendiskusikan pertanyaan tersebut dengan diskusi, mencoba menyelesaikannya selangkah demi selangkah, dan memastikan hasilnya benar: | (Kami, Studi Ablasi) |
PanelGPT tanpa AE | 0,84 | 3 ahli sedang mendiskusikan pertanyaan dengan diskusi, mencoba menyelesaikannya selangkah demi selangkah, dan memastikan hasilnya benar dan menghindari penalti: | (Kami, Studi Ablasi) |
PanelGPT tanpa EA | 0,894 | 3 orang ahli sedang mendiskusikan pertanyaan tersebut dengan diskusi panel, mencoba menyelesaikannya selangkah demi selangkah, dan memastikan hasilnya benar: | (Kami, Studi Ablasi) |
P e N A lGPT (Salah ejaan) | 0,883 | 3 orang ahli sedang membahas soal tersebut dengan diskusi pidana, mencoba menyelesaikannya selangkah demi selangkah, dan memastikan hasilnya benar: | (Kami, Studi Ablasi) |
Kemampuan Zero-shot prompting muncul dalam model bahasa yang dilatih pada data dalam jumlah besar seperti GPT-3 dan GPT-4 (Ouyang et al., 2022; OpenAI, 2023). Dan itu ditunjukkan dalam Wei et al. (2021) bahwa penyempurnaan instruksi meningkatkan kemampuan pembelajaran zero-shot model bahasa.
Meskipun performa zero-shot mengesankan yang ditunjukkan oleh model bahasa besar, model ini sering kali menunjukkan performa suboptimal dalam menjalankan tugas yang lebih kompleks dalam pengaturan zero-shot. Memanfaatkan dorongan beberapa langkah menghadirkan pendekatan yang layak untuk memfasilitasi pembelajaran dalam konteks (Brown dkk., 2020; Min dkk., 2022). Teknik ini mengharuskan penyertaan demonstrasi dalam prompt, yang secara efektif memandu model menuju peningkatan kinerja. Demonstrasi ini bertindak sebagai mekanisme pengkondisian untuk contoh-contoh berikutnya, sehingga mengarahkan model untuk menghasilkan respons yang lebih baik.
Dalam beberapa tugas yang lebih menantang seperti tugas aritmatika, akal sehat, dan penalaran simbolis yang kompleks, dorongan rantai pemikiran (CoT) terbukti lebih efektif dalam membantu model bahasa mendapatkan jawaban yang benar (Wei et al., 2022). CoT mencakup langkah-langkah penalaran tambahan dalam beberapa contoh petunjuk. Kojima dkk. (2022) lebih lanjut memperkenalkan CoT zero-shot, menunjukkan bahwa menambahkan instruksi tugas-agnostik dapat meningkatkan kinerja model dalam tugas-tugas tertentu. Dalam Zhang dkk. (2022b), Auto-CoT menggabungkan universalitas CoT zero-shot dan kemampuan CoT asli yang didorong oleh demonstrasi dan mengusulkan untuk secara otomatis membangun demonstrasi berdasarkan pengelompokan dan pengambilan sampel berbasis keragaman yang bermanfaat untuk penalaran CoT.
Wang dkk. (2022) menyempurnakan metode CoT beberapa langkah dengan mengambil sampel beberapa jalur penalaran yang beragam dan meminggirkan jalur tersebut, dengan memilih jawaban yang paling konsisten di antara semua jalur penalaran yang dijadikan sampel. Pengetahuan yang Dihasilkan Mendorong Liu dkk. (2021) meningkatkan penalaran yang masuk akal dengan memasukkan pengetahuan atau informasi terkait pertanyaan untuk membuat prediksi yang lebih akurat. Metode pohon pemikiran (ToT) (Long, 2023; Yao et al., 2023) menggabungkan metode perencanaan berbasis pohon dengan keterampilan penalaran model bahasa, dan memecahkan masalah penalaran sulit selangkah demi selangkah melalui beberapa putaran percakapan. Hulbert (2023) juga mengemukakan gagasan terkait yang memanfaatkan banyak pemikiran model bahasa dalam satu perintah. Memory and Retrieval Augmented Generation (RAG) (Lewis et al., 2020), yang mampu menggabungkan memori parametrik dan memori non-parametrik seperti Wikipedia dalam menyelesaikan tugas-tugas padat pengetahuan. Kementerian Perdagangan (Li & Qiu, 2023): Pra-pemikiran berdasarkan kumpulan data eksternal yang tidak diberi label dan kemudian mengingat pengetahuan terkait selama inferensi.
Prompt-OIRL memperkenalkan gagasan menggunakan pembelajaran penguatan terbalik offline untuk melakukan evaluasi dan pengoptimalan cepat offline. Caranya efisien dan efektif. Pelatihan Prompt-OIRL pada chip M2 MacBook Air hanya membutuhkan waktu 1 jam, namun performa LLM berbeda pada tugas penalaran aritmatika dapat ditingkatkan hingga 24%.
Jika Anda menggunakan kode dan prompt kami, mohon pertimbangkan untuk mengutip makalah kami:
@inproceedings{sun2023query, title={Evaluasi dan Optimasi Prompt yang Bergantung pada Kueri dengan RL Invers Offline}, author={Sun, Hao and H{"u}y{"u}k, Alihan and van der Schaar, Mihaela}, booktitle ={Konferensi Internasional Kedua Belas tentang Representasi Pembelajaran}, tahun={2023}}@article{sun2023reinforcement, title={Pembelajaran Penguatan di Era LLM: Apa yang Penting? Apa yang dibutuhkan? Perspektif RL tentang RLHF, Prompting, dan Beyond}, author={Sun, Hao}, journal={arXiv preprint arXiv:2310.06147}, year={2023}}