Perkembangan cepat model bahasa besar (LLM) telah membawa kenyamanan yang belum pernah terjadi sebelumnya, tetapi juga menghadapi tantangan utama "ilusi". Yang disebut "ilusi" mengacu pada konten yang menghasilkan LLM yang tampaknya nyata tetapi sebenarnya salah atau tidak konsisten dengan fakta. Artikel ini akan melakukan diskusi mendalam tentang hasil penelitian terbaru dari para peneliti Harvard tentang fenomena "ilusi" LLM, menganalisis penyebabnya dan menantikan arah pengembangan di masa depan. Penelitian mengungkapkan bahwa akar "ilusi" LLM terletak pada mekanisme prediksi berdasarkan probabilitas statistik, daripada pemahaman semantik yang nyata. Ini membuat LLM rentan terhadap informasi yang salah ketika berhadapan dengan topik yang tidak jelas atau kontroversial.
Munculnya model bahasa besar (LLM), terutama mempopulerkan aplikasi seperti chatgpt, telah sepenuhnya mengubah cara interaksi komputer-komputer. Model -model ini mengesankan untuk menghasilkan teks yang koheren dan komprehensif. Namun, terlepas dari kemampuannya yang kuat, LLM rentan terhadap "ilusi", yaitu, untuk menghasilkan konten yang tampaknya nyata tetapi sebenarnya fiksi, tidak berarti, atau tidak konsisten dengan prompt.
Para peneliti di Universitas Harvard melakukan penelitian mendalam tentang fenomena "Ilusi" LLM dan menemukan bahwa akarnya penyebabnya terletak pada cara kerja LLM. LLM membangun model probabilitas dengan pembelajaran mesin pada data teks besar-besaran dan memprediksi kata berikutnya berdasarkan probabilitas kata-kata bersama. Dengan kata lain, LLM tidak terlalu memahami arti bahasa, tetapi membuat prediksi berdasarkan probabilitas statistik.
Para peneliti membandingkan LLM dengan "crowdsourcing" dan percaya bahwa LLM sebenarnya menghasilkan "konsensus jaringan". Sama seperti platform seperti Wikipedia atau Reddit, LLM mengekstrak informasi dari sejumlah besar data teks dan menghasilkan jawaban yang paling umum. Karena sebagian besar bahasa digunakan untuk menggambarkan dunia, jawaban yang dihasilkan oleh LLM biasanya akurat.
Namun, "ilusi" terjadi ketika LLM menemukan topik konsensus yang kabur, kontroversial atau kurangnya konsensus. Untuk menguji hipotesis ini, para peneliti merancang serangkaian percobaan yang menguji kinerja LLM yang berbeda ketika berhadapan dengan berbagai topik. Hasil eksperimen menunjukkan bahwa LLM berkinerja baik ketika berhadapan dengan topik umum, tetapi secara signifikan mengurangi akurasi ketika berhadapan dengan topik yang tidak jelas atau kontroversial.
Studi ini menunjukkan bahwa LLM, walaupun kuat sebagai alat, adalah keakuratannya tergantung pada kualitas dan kuantitas data pelatihan. Saat menggunakan LLM, terutama ketika berhadapan dengan topik fuzzy atau kontroversial, outputnya perlu diambil dengan hati -hati. Studi ini juga memberikan arahan untuk pengembangan LLM di masa depan, yaitu, kebutuhan untuk meningkatkan kemampuan LLM untuk menangani topik fuzzy dan kontroversial dan meningkatkan interpretabilitas hasil outputnya.
Alamat kertas: https://dl.acm.org/doi/pdf/10.1145/3688007
Penelitian Universitas Harvard memberikan wawasan yang berharga untuk memahami dan meningkatkan LLM, dan juga mengingatkan kita untuk menggunakan LLM dengan hati -hati, terutama ketika menargetkan topik yang tidak jelas atau kontroversial, dan kita perlu mengidentifikasi dengan hati -hati akurasi hasil outputnya, dan berharap bahwa LLM akan mengatasinya dengan hati -hati Di masa depan.