Model bahasa besar (LLM) dengan jendela konteks yang sangat panjang berkembang pesat, dan kemampuannya memproses informasi telah menarik perhatian luas. Namun, terdapat tantangan dalam menilai kemampuan model ini dalam memahami dan memanfaatkan informasi dalam jumlah besar. Para peneliti di Google DeepMind mengembangkan tolok ukur Michelangelo untuk tujuan ini, yang bertujuan untuk mengevaluasi lebih dalam kemampuan penalaran LLM konteks panjang dan memberikan arahan untuk perbaikan model di masa depan.
Baru-baru ini, model bahasa besar (LLM) dengan jendela konteks yang sangat panjang menjadi topik diskusi hangat. Model ini mampu menangani ratusan ribu atau bahkan jutaan token dalam satu waktu, membuka banyak kemungkinan baru bagi pengembang. Namun, seberapa baik LLM konteks panjang ini memahami dan memanfaatkan informasi besar yang diterima? Untuk mengatasi masalah ini, para peneliti di Google DeepMind meluncurkan tolok ukur baru yang disebut Michelangelo, yang dirancang untuk mengevaluasi kemampuan dorongan konteks panjang. Hasilnya menunjukkan bahwa meskipun model mutakhir saat ini telah mencapai beberapa kemajuan dalam mengekstraksi informasi dari sejumlah besar data kontekstual, model tersebut masih mengalami kesulitan dalam tugas-tugas yang memerlukan penalaran dan pemahaman struktur data. Ketika LLM dengan jendela konteks panjang muncul, para peneliti mulai menyadari bahwa diperlukan tolok ukur baru untuk mengevaluasi kemampuan model ini. Evaluasi yang ada sebagian besar berfokus pada tugas pencarian informasi, seperti evaluasi “menemukan jarum di tumpukan jerami”, yaitu mencari informasi spesifik dalam sejumlah besar konteks. Namun, pengambilan sederhana tidak sama dengan pemahaman model terhadap konteks keseluruhan. Untuk mengatasi masalah ini, Michelangelo mengusulkan metode evaluasi baru dengan menetapkan tugas-tugas kompleks yang memerlukan model untuk melakukan penalaran dan sintesis yang lebih dalam ketika memproses teks yang panjang. Misalnya, kerangka evaluasi berisi banyak tugas yang berkaitan dengan pemrograman dan bahasa alami. Tugas-tugas ini tidak hanya menguji kemampuan memori model, tetapi juga fokus pada kedalaman pemahaman dan pemrosesan informasi. Dalam tugas evaluasi Michelangelo, model tersebut perlu menyelesaikan tiga tugas dasar sintesis dokumen panjang, yaitu "daftar potensial", "resolusi inti inti multi-putaran" dan berbagai skenario aplikasi lainnya. Tugas-tugas ini tidak hanya membantu mengevaluasi kinerja model pada dokumen yang panjang, namun juga mengungkapkan kekurangannya dalam inferensi dan sintesis. Yang pertama adalah "daftar potensial", di mana model perlu memproses daftar panjang operasi pada daftar Python, menyaring pernyataan yang tidak relevan atau berlebihan untuk menentukan keadaan akhir dari daftar tersebut. Item kedua adalah "resolusi referensi multi-putaran", yang mana model perlu memahami struktur percakapan dan memecahkan masalah referensi dalam percakapan panjang. Item ketiga adalah "Saya tidak tahu". Saat menjawab pertanyaan pilihan ganda, model perlu menentukan apakah jawabannya termasuk dalam konteks dan mampu menjawab "Saya tidak tahu" secara akurat. Para peneliti mengevaluasi Michelangelo terhadap sepuluh LLM teratas, termasuk versi Gemini, GPT-4, dan Claude yang berbeda, dan mereka menguji model tersebut dalam konteks hingga 1 juta token. Model Gemini berperforma terbaik di MRCR, model GPT berperforma baik di Daftar Laten, dan Claude3.5Sonnet mendapatkan skor tertinggi di IDK.
Editor Downcodes menyimpulkan: Munculnya tolok ukur Michelangelo memberikan perspektif baru untuk mengevaluasi LLM konteks ultra-panjang, dan juga menunjukkan kekurangan model saat ini dalam kemampuan penalaran yang kompleks. Di masa depan, LLM yang lebih kuat perlu mencapai terobosan dalam kemampuan penalaran agar dapat mengatasi tugas dan skenario aplikasi yang lebih kompleks dengan lebih baik. Kami menantikan penelitian di masa depan yang memberikan lebih banyak kejutan!