Model bahasa sekarang mampu menyelesaikan tugas-tugas yang memerlukan penanganan rangkaian panjang yang terdiri dari ratusan ribu token. Namun, mereka sering gagal dalam tugas-tugas yang memerlukan penggunaan aturan sederhana secara berulang-ulang, bahkan pada urutan yang jauh lebih pendek daripada yang terlihat selama pelatihan. Misalnya, LLM canggih dapat menemukan item umum dalam dua daftar dengan maksimal 20 item tetapi gagal ketika daftar memiliki 80 item. Dalam makalah ini, kami memperkenalkan MLissard, tolok ukur multibahasa yang dirancang untuk mengevaluasi kemampuan model dalam memproses dan menghasilkan teks dengan panjang bervariasi dan menawarkan mekanisme untuk mengendalikan kompleksitas urutan.
Evaluasi kami terhadap model sumber terbuka dan kepemilikan menunjukkan penurunan kinerja yang konsisten di semua model dan bahasa seiring dengan meningkatnya kompleksitas rangkaian. Yang mengejutkan, penggunaan contoh dalam konteks dalam bahasa selain bahasa Inggris membantu meningkatkan kinerja ekstrapolasi secara signifikan.
Di folder data/(tugas)/ Anda akan menemukan kumpulan data untuk evaluasi dengan MLissard. File-file tersebut dalam format .json dan menyajikan deskripsi singkat tentang tugas diikuti dengan contoh bahasa target dalam konteks. Bidang "test_examples" berisi contoh pengujian yang terdiri dari input, target, panjang (len) dan bin yang termasuk dalam panjang ini.
Dalam hasil/(tugas)/GPT-4/ dimungkinkan untuk menemukan jawaban yang dihasilkan oleh model GPT-4 dan Llama-3 serta tes ablasi, folder dipisahkan berdasarkan tugas.
Folder src/(task)/ berisi file .py untuk menghasilkan contoh baru atau memperluas MLissard. Untuk menjalankan: python <task_name>.py --output_path=my_output_path