Model bahasa besar (LLM) telah menunjukkan potensi besar di bidang pemrosesan data, namun pemrosesan data kompleks yang tidak terstruktur masih menghadapi tantangan. Kerangka kerja berbasis LLM yang ada sering kali berfokus pada biaya dan mengabaikan peningkatan akurasi, terutama dalam tugas-tugas kompleks. Editor Downcodes akan memperkenalkan kepada Anda sistem hasil penelitian terobosan-DocETL, yang secara efektif memecahkan masalah akurasi LLM saat memproses dokumen yang kompleks.
Dalam beberapa tahun terakhir, model bahasa besar (LLM) telah mendapat perhatian luas di bidang manajemen data, dan cakupan penerapannya terus berkembang, termasuk integrasi data, penyetelan basis data, pengoptimalan kueri, dan pembersihan data. Namun, masih banyak tantangan ketika menangani data tidak terstruktur, terutama dokumen yang kompleks.
Saat ini, beberapa kerangka pemrosesan data tidak terstruktur berdasarkan LLM cenderung lebih fokus pada pengurangan biaya, namun mengabaikan isu peningkatan akurasi pemrosesan. Masalah ini sangat menonjol ketika menganalisis tugas-tugas kompleks, karena hasil yang dihasilkan oleh LLM seringkali tidak dapat secara akurat memenuhi kebutuhan spesifik pengguna.
Dalam kasus Proyek Pelaporan Investigasi UC Berkeley, para peneliti berharap dapat menganalisis sejumlah besar catatan polisi yang diperoleh melalui permintaan catatan untuk mengungkap kesalahan petugas dan potensi pelanggaran prosedur. Tugas tersebut, yang disebut Identifikasi Pelanggaran Polisi (PMI), memerlukan pemrosesan berbagai jenis dokumen, mengekstraksi dan merangkum informasi penting, dan secara bersamaan menggabungkan data dari beberapa dokumen untuk menghasilkan ringkasan perilaku yang terperinci. Metode yang ada biasanya hanya menggunakan LLM satu kali untuk memproses setiap dokumen. Operasi pemetaan satu langkah ini seringkali kurang akurat, terutama bila panjang dokumen melebihi batas konteks LLM, informasi penting mungkin hilang.
Untuk mengatasi masalah tersebut, tim peneliti dari University of California, Berkeley, dan Columbia University mengusulkan sistem inovatif yang disebut DocETL. DocETL bertujuan untuk mengoptimalkan proses pemrosesan dokumen yang kompleks dan mengatasi keterbatasan LLM yang ada. Sistem ini menyediakan antarmuka deklaratif yang memungkinkan pengguna menentukan alur pemrosesan secara fleksibel dan memanfaatkan kerangka kerja berbasis agen untuk pengoptimalan otomatis. Fitur utama DocETL mencakup proses penulisan ulang logika yang disesuaikan untuk tugas LLM, mekanisme evaluasi rencana yang dipandu agen, dan algoritme pengoptimalan efisien yang membantu mengidentifikasi rencana pemrosesan dengan potensi tertinggi.
Ketika dievaluasi berdasarkan tugas identifikasi pelanggaran polisi, DocETL mengadopsi 227 dokumen dari departemen kepolisian California dan menghadapi berbagai tantangan seperti panjang dokumen yang melebihi batas konteks LLM. Dievaluasi di berbagai varian saluran, DocETL menunjukkan kemampuan unik dalam mengoptimalkan tugas pemrosesan dokumen yang kompleks.
Evaluasi manusia dan tinjauan LLM menunjukkan bahwa keakuratan keluaran DocETL 1,34 kali lebih tinggi dibandingkan metode tradisional, yang menunjukkan pentingnya dan efektivitas sistem ini dalam memproses tugas dokumen yang kompleks.
Singkatnya, DocETL, sebagai sistem deklaratif yang inovatif, tidak hanya dapat secara efektif memecahkan banyak masalah dalam pemrosesan dokumen yang kompleks, namun juga meletakkan dasar yang kuat untuk penelitian dan penerapan di masa depan.
Makalah: https://arxiv.org/abs/2410.12189v1
Proyek: https://github.com/ucbepic/docetl
Menyorot:
LLM menghadirkan tantangan yang signifikan karena kurangnya akurasi dalam menangani dokumen yang rumit.
Sistem DocETL menyediakan antarmuka deklaratif yang fleksibel dan kemampuan optimasi otomatis untuk pemrosesan dokumen.
Melalui evaluasi manusia, kualitas keluaran DocETL meningkat secara signifikan, dengan peningkatan sebesar 1,34 kali lipat.
Munculnya sistem DocETL memberikan ide-ide baru untuk memecahkan masalah akurasi LLM dalam memproses dokumen yang kompleks. Kinerjanya yang sangat baik dalam aplikasi praktis juga meletakkan dasar yang kokoh untuk penerapan LLM di bidang pengolahan data di masa depan. Kami menantikan munculnya lebih banyak teknologi inovatif serupa untuk mempromosikan teknologi LLM agar dapat melayani berbagai bidang dengan lebih baik.