Baru-baru ini, sebuah studi bersama yang dilakukan oleh University of Munich, Munich Machine Learning Center dan Adobe Research mengevaluasi kinerja 12 model bahasa AI top termasuk GPT-4, Gemini dan Llama dalam tugas penalaran konseptual teks panjang. Hasil penelitian ini mengkhawatirkan: meskipun kemampuan untuk memproses teks ultra-panjang, model-model ini memiliki kelemahan yang signifikan dalam penalaran logis yang kompleks, dan kinerjanya memiliki penurunan teks panjang seperti tebing. Melalui sistem pembandingan Nolima, tim peneliti secara cerdik menghindari duplikasi kata kunci, mengungkapkan kerapuhan model dalam asosiasi konseptual, dan sangat menganalisis penyebab fenomena ini.
Penelitian yang dirilis bersama oleh University of Munich, Munich Machine Learning Center dan Adobe Research baru-baru ini menunjukkan bahwa 12 model bahasa AI teratas termasuk GPT-4O, Gemini1.5pro dan Llama-3.3-70B menghadapi hasil yang jelas dalam tugas penalaran konseptual teks yang panjang. Pembusukan kinerja. Meskipun semua model ini mendukung pemrosesan konteks setidaknya 128.000 penanda, kemampuan korelasi logis yang mendalam masih memiliki keterbatasan mendasar.
Sistem uji benchmark NOLIMA (No No Text Matching) yang dikembangkan oleh tim peneliti mengungkapkan kerapuhan model AI dalam koneksi konseptual dengan sengaja menghindari desain duplikasi kata kunci. Misalnya, ketika teks menggambarkan "Yuki tinggal di sebelah Semperoper", model perlu memahami akal sehat bahwa "Semperoper terletak di Dresden" sebelum menjawab "yang telah ke Dresden".
Hasil tes menunjukkan:
1. ** Kinerja teks panjang menurun dengan cara seperti tebing **: Ketika konteksnya berkembang dari 2.000 menjadi 8.000 tanda, kinerja sebagian besar model telah turun secara signifikan; dalam skenario 32.000 Marks, 10 dari 12 model hanya melakukan setengah dari Apa itu saat teks pendek.
2. ** Mekanisme perhatian memaparkan kekurangan **: Model ini sulit untuk secara akurat menemukan informasi terkait dalam teks panjang, dan ketika jawaban kunci muncul di paruh kedua teks, laju akurasi semakin menurun.
3. ** Model inferensi khusus masih memiliki cacat **: sistem O1, O3-Mini dan Deepseek-R1 yang dirancang untuk inferensi kompleks mencetak kurang dari 50% dalam uji Nolima-Hard label 32K, meskipun hampir singkatnya singkatnya singkatnya singkat singkat teks sempurna.
Penelitian menunjukkan bahwa ketergantungan model yang berlebihan pada pemikiran inersia tentang "pencocokan kata" adalah masalah inti. Ketika tes dengan sengaja mengecualikan kosakata yang sama, bahkan jika teknologi prompt rantai pemikiran (COT) digunakan, peningkatan kemampuan pemrosesan teks panjang LLAMA-3.3-70B masih terbatas. Yang lebih serius adalah bahwa jika ada gangguan pencocokan kata dalam konteks yang tidak relevan, itu akan mengintensifkan kesalahan penilaian model.
"Ini mengungkapkan kontradiksi mendasar dari AI saat ini - mudah untuk memperluas jendela konteks, tetapi sulit untuk meningkatkan kemampuan penalaran yang mendalam." Mengambil GPT-4O sebagai contoh, meskipun mencapai panjang konteks efektif 8.000 tanda, masih lemah dalam integrasi konsep-konsep lintas paragraf. Ketika teks diperluas, mekanisme perhatian model secara bertahap "tidak fokus", sehingga sulit untuk mempertahankan rantai logis yang koheren.
Penelitian ini terdengar alarm untuk pengembangan AI: Cukup meningkatkan panjang pemrosesan tidak dapat menembus kemacetan. Industri ini perlu memeriksa kembali desain arsitektur model dan mengembangkan ekstraksi informasi yang lebih efisien dan mekanisme asosiasi. Di masa depan, bagaimana membuat AI benar -benar memahami teks daripada mengandalkan pencocokan pola akan menjadi kunci untuk menembus batas pemrosesan teks panjang.
Studi ini menekankan keterbatasan model AI saat ini dalam penalaran teks panjang, dan memberikan referensi penting untuk arah peningkatan model AI di masa depan. Cukup meningkatkan ukuran jendela konteks tidak dapat menyelesaikan masalah.