Sumber: Berita MIT
Meskipun kemampuan model bahasa besar sangat mengesankan, namun masih jauh dari sempurna. Model AI ini terkadang dapat "berhalusinasi" dan menghasilkan informasi yang salah atau tidak berdasar sebagai respons terhadap pertanyaan.
Karena masalah ilusi ini, respons model sering kali perlu diverifikasi oleh manusia yang melakukan tinjauan, terutama di lingkungan dengan risiko tinggi seperti layanan kesehatan atau keuangan. Namun, proses validasi sering kali mengharuskan orang untuk membaca dokumen panjang yang direferensikan oleh model, sebuah tugas yang membosankan dan rawan kesalahan yang mungkin menghalangi sebagian pengguna untuk menggunakan model AI generatif.
Untuk membantu verifikasi manusia, peneliti MIT telah menciptakan sistem ramah pengguna yang memungkinkan orang memverifikasi respons model bahasa besar dengan lebih cepat. Alat tersebut, yang disebut SymGen, memungkinkan LLM menghasilkan respons dengan referensi yang menunjuk langsung ke lokasi tertentu dalam dokumen sumber, seperti sel dalam database.
Pengguna dapat mengarahkan kursor ke bagian respons teks yang disorot untuk melihat data yang digunakan model untuk menghasilkan kata atau frasa tertentu. Sedangkan bagian yang tidak disorot menunjukkan frasa yang memerlukan perhatian tambahan untuk pemeriksaan dan verifikasi.
"Kami memberi orang kemampuan untuk secara selektif fokus pada bagian teks yang perlu mereka perhatikan lebih lanjut. Pada akhirnya, SymGen meningkatkan kepercayaan orang terhadap respons model karena mereka dapat dengan mudah memeriksa ulang untuk memastikan informasi tersebut dapat diandalkan." & Ilmu Komputer kata mahasiswa pascasarjana Shannon Shen, salah satu penulis pertama makalah SymGen.
Melalui riset pengguna, Shen dan kolaboratornya menemukan bahwa waktu verifikasi menggunakan SymGen berkurang sekitar 20% dibandingkan dengan proses manual. Dengan membuat proses validasi keluaran model lebih cepat dan sederhana, SymGen membantu mengidentifikasi kesalahan dalam LLM yang digunakan dalam berbagai aplikasi dunia nyata, mulai dari menghasilkan catatan klinis hingga merangkum laporan pasar keuangan.
Rekan penulis Shen dalam makalah ini juga termasuk rekan penulis pertama Lucas Torroba Hennigen, seorang mahasiswa pascasarjana EECS; mahasiswa pascasarjana EECS Aniruddha “Ani” Nrusimha, presiden Good Data Initiative; dan anggota Klinik MIT Jameel, Ilmu Komputer dengan kepala Kelompok Pembelajaran Mesin Klinis dari Laboratorium Kecerdasan Buatan (CSAIL); dan Asisten Profesor yoon Kim, anggota CSAIL. Penelitian ini baru-baru ini dipresentasikan pada konferensi pemodelan bahasa.
Referensi simbol
Untuk membantu verifikasi, banyak LLM dirancang untuk menghasilkan referensi ke dokumen eksternal dan memberikan respons berbasis bahasa untuk inspeksi pengguna. Namun, sistem verifikasi ini sering kali hanya merupakan sebuah renungan dan tidak memperhitungkan upaya yang diperlukan orang untuk menyaring sejumlah besar kutipan, kata Shen.
“Tujuan AI generatif adalah untuk mengurangi waktu yang dibutuhkan pengguna untuk menyelesaikan suatu tugas. Jika Anda perlu menghabiskan waktu berjam-jam membaca dokumen-dokumen ini untuk memverifikasi apakah klaim model tersebut masuk akal, konten yang dihasilkan akan kurang berguna dalam aplikasi dunia nyata. kata Shen.
Para peneliti mendekati pertanyaan ini dari sudut pandang orang yang akan melakukan pekerjaan validasi.
Pengguna SymGen pertama-tama memberikan LLM data yang dapat digunakan sebagai referensi, seperti tabel yang berisi statistik permainan bola basket. Para peneliti kemudian melakukan langkah perantara tanpa segera meminta model menyelesaikan suatu tugas, seperti membuat ringkasan kecocokan dari data ini. Mereka mendorong model untuk menghasilkan respons dalam bentuk simbolis.
Dengan prompt ini, setiap kali model ingin mereferensikan sebuah kata dalam respons, model harus menuliskan sel tertentu dalam tabel data yang berisi informasi tersebut. Misalnya, jika model ingin mereferensikan frasa "Portland Trail Blazers" dalam respons, model akan mengganti teks tersebut dengan nama sel dalam tabel data yang berisi kata-kata tersebut.
“Karena kami memiliki langkah perantara di mana teks disajikan dalam format simbolis, kami dapat mencapai referensi yang sangat terperinci. Kami dapat dengan jelas menunjukkan bagian data mana yang sesuai dengan setiap bagian teks dalam keluarannya,” kata Torroba Hennigen.
SymGen kemudian menggunakan alat berbasis aturan untuk mengurai setiap referensi, menyalin teks terkait dari tabel data ke dalam respons model.
“Dengan begitu, kami tahu itu disalin kata demi kata, sehingga kami dapat memastikan tidak ada kesalahan di bagian teks yang sesuai dengan variabel data sebenarnya,” tambah Shen.
Sederhanakan verifikasi
Model tersebut mampu menghasilkan respons simbolis karena cara pelatihannya. Model bahasa besar menerima data dalam jumlah besar dari Internet, beberapa di antaranya dicatat dalam "format placeholder" dengan kode yang menggantikan nilai sebenarnya.
SymGen menggunakan struktur serupa ketika meminta model untuk menghasilkan respons simbolis.
“Kami merancang petunjuknya dengan cara yang spesifik untuk mengeluarkan kemampuan LLM,” tambah Shen.
Dalam studi pengguna, sebagian besar peserta menyatakan bahwa SymGen mempermudah verifikasi teks yang dihasilkan LLM. Mereka memverifikasi respons model sekitar 20% lebih cepat dibandingkan menggunakan metode standar.
Namun, efektivitas SymGen dibatasi oleh kualitas sumber data. LLM mungkin mereferensikan variabel yang salah, dan pemverifikasi manusia mungkin tidak menyadarinya.
Selain itu, pengguna harus menyediakan data sumber dalam format terstruktur (seperti tabel) untuk dimasukkan ke dalam SymGen. Saat ini, sistem hanya bekerja dengan data tabular.
Ke depannya, para peneliti meningkatkan kemampuan SymGen untuk menangani teks arbitrer dan bentuk data lainnya. Dengan kemampuan ini, dapat membantu memvalidasi bagian tertentu dari ringkasan dokumen hukum yang dihasilkan AI. Mereka juga berencana menguji SymGen dengan dokter untuk mempelajari cara SymGen mengidentifikasi kesalahan dalam ringkasan klinis yang dihasilkan AI.
Pekerjaan ini sebagian didanai oleh LiBERTy Mutual dan MIT Intelligent Discovery Initiative.