Munculnya model bahasa besar (LLM), terutama meluasnya penggunaan aplikasi seperti ChatGPT, telah mengubah model interaksi manusia-komputer secara menyeluruh. LLM menunjukkan kemampuan mengesankan untuk menghasilkan teks yang koheren dan komprehensif. Namun editor Downcodes menemukan bahwa LLM juga memiliki masalah "halusinasi", yaitu menghasilkan konten yang tampak nyata tetapi fiktif, tidak berarti, atau tidak sesuai dengan petunjuknya. Para peneliti di Universitas Harvard telah melakukan penelitian mendalam mengenai hal ini, mencoba mengungkap penyebab dan solusi "ilusi" LLM.
Munculnya model bahasa besar (LLM), terutama popularitas aplikasi seperti ChatGPT, telah mengubah cara interaksi manusia-komputer dilakukan. Kemampuan model untuk menghasilkan teks yang koheren dan komprehensif sangat mengesankan. Namun, meskipun memiliki kemampuan yang kuat, LLM rentan terhadap "halusinasi", yaitu menghasilkan konten yang tampak nyata namun sebenarnya fiktif, tidak berarti, atau tidak sesuai dengan petunjuknya.
Para peneliti di Universitas Harvard melakukan kajian mendalam terhadap fenomena “halusinasi” LLM dan menemukan bahwa akarnya terletak pada prinsip kerja LLM. LLM membangun model probabilistik dengan melakukan pembelajaran mesin pada data teks yang sangat besar, dan memprediksi kata berikutnya berdasarkan kemungkinan kemunculan kata secara bersamaan. Dengan kata lain, LLM tidak terlalu memahami arti bahasanya, namun membuat prediksi berdasarkan probabilitas statistik.
Para peneliti menyamakan LLM dengan "crowdsourcing" dan percaya bahwa LLM sebenarnya menghasilkan "konsensus jaringan". Sama seperti platform seperti Wikipedia atau Reddit, LLM mengekstrak informasi dari sejumlah besar data teks dan menghasilkan jawaban paling umum. Karena sebagian besar bahasa digunakan untuk mendeskripsikan dunia, jawaban yang dihasilkan oleh LLM biasanya akurat.
Namun, "ilusi" dapat terjadi ketika LLM menghadapi topik yang tidak jelas, kontroversial, atau kurang konsensus. Untuk menguji hipotesis ini, para peneliti merancang serangkaian eksperimen untuk menguji kinerja LLM yang berbeda ketika menangani topik yang berbeda. Hasil percobaan menunjukkan bahwa LLM bekerja dengan baik ketika berhadapan dengan topik umum, namun keakuratannya menurun secara signifikan ketika berhadapan dengan topik yang ambigu atau kontroversial.
Studi ini menunjukkan bahwa meskipun LLM adalah alat yang ampuh, keakuratannya bergantung pada kualitas dan kuantitas data pelatihan. Saat menggunakan LLM, terutama ketika berhadapan dengan topik yang ambigu atau kontroversial, keluarannya perlu diperlakukan dengan hati-hati. Penelitian ini juga memberikan arah pengembangan LLM ke depan, yaitu perlunya meningkatkan kemampuan LLM dalam menangani topik-topik yang ambigu dan kontroversial serta meningkatkan interpretasi hasil keluarannya.
Alamat kertas: https://dl.acm.org/doi/pdf/10.1145/3688007
Studi Harvard memberikan wawasan berharga dalam memahami dan meningkatkan LLM. Hal ini juga mengingatkan kita bahwa kita perlu menggunakan LLM dengan hati-hati, terutama ketika berhadapan dengan topik yang kompleks atau kontroversial, dan kita harus mengevaluasi hasil keluarannya secara kritis. Arah pengembangan LLM di masa depan harus fokus pada peningkatan kemampuannya dalam menangani informasi fuzzy dan meningkatkan kemampuan interpretasi. Redaksi Downcodes berharap penelitian ini dapat mendorong perkembangan teknologi LLM ke arah yang lebih andal dan terpercaya.