Tim peneliti Amazon merilis Shopping MMLU, tolok ukur belanja online multitugas berdasarkan data Amazon asli, yang dirancang untuk mengevaluasi secara komprehensif potensi model bahasa besar (LLM) sebagai asisten belanja umum. Tolok ukur tersebut berisi 57 tugas, yang mencakup empat modul: pemahaman konsep, penalaran pengetahuan, penyelarasan perilaku pengguna, dan kemampuan multi-bahasa, untuk memeriksa apakah asisten AI dapat memahami kebutuhan pengguna seperti panduan belanja nyata dan memberikan layanan yang akurat. Dengan menguji lebih dari 20 model AI, MMLU Perbelanjaan mengungkapkan sifat pembelajaran multi-tugas dalam belanja online dan menunjukkan tantangan yang dihadapi model AI yang ada dalam penerapan di bidang tertentu, seperti penyesuaian instruksi yang berlebihan dan kesulitan dalam melakukan beberapa pengambilan gambar. sedang belajar. .
Pembelajaran mesin telah merambah ke berbagai layanan online, dan belanja online adalah salah satu bidang yang paling sukses. Dalam beberapa tahun terakhir, pembelajaran mesin telah diterapkan pada berbagai tugas belanja online, seperti kueri pengguna, catatan penelusuran, analisis ulasan, ekstraksi atribut produk, dll. Untuk mendorong pengembangan metode pembelajaran mesin, banyak tolok ukur telah dikembangkan untuk menurunkan ambang batas bagi peneliti dan insinyur dalam mengembangkan dan mengevaluasi solusi baru untuk tugas belanja online yang sebenarnya.
Namun, model dan tolok ukur yang ada sering kali disesuaikan untuk tugas tertentu dan tidak dapat sepenuhnya menangkap kompleksitas belanja online. Model Bahasa Besar (LLM), dengan kemampuan pembelajaran multi-tugas dan beberapa kali, memiliki potensi untuk merevolusi pengalaman belanja online dengan mengurangi upaya rekayasa untuk tugas-tugas tertentu dan menyediakan percakapan interaktif kepada pengguna. Terlepas dari potensinya yang besar, model bahasa berskala besar juga menghadapi tantangan unik dalam domain belanja online, seperti konsep belanja khusus domain, pengetahuan diam-diam, dan perilaku pengguna yang heterogen.
Untuk mengatasi tantangan ini, para peneliti Amazon mengusulkan Shopping MMLU, sebuah tolok ukur belanja online multi-tugas berdasarkan data Amazon yang sebenarnya. MMLU Belanja berisi 57 tugas yang mencakup 4 keterampilan belanja utama: pemahaman konseptual, penalaran pengetahuan, penyelarasan perilaku pengguna, dan kemampuan multibahasa, sehingga potensi model bahasa besar sebagai asisten belanja universal dapat dievaluasi secara komprehensif.
MMLU Belanja ini bukan "ujian" biasa. Ini mengekstrak 57 tugas dari data belanja Amazon nyata, yang mencakup empat modul utama: pemahaman konseptual, penalaran pengetahuan, penyelarasan perilaku pengguna, dan kemampuan multi-bahasa. Sederhananya, ini untuk memeriksa apakah asisten AI dapat memahami kebutuhan Anda dan membantu Anda menemukan bayi yang Anda inginkan seperti panduan belanja sungguhan.
Peneliti Amazon menguji lebih dari 20 model AI yang ada dengan MMLU Belanja dan menemukan:
Model AI berpemilik terkenal tersebut, seperti Claude-3Sonnet dan ChatGPT, memiliki kinerja yang sangat baik dan kokoh di eselon satu. Namun, model AI open source juga sedang mengejar dan memiliki momentum untuk menantang “otoritas”.
Hasil pengujian MMLU Belanja juga mengungkap fenomena menarik: belanja online sebenarnya merupakan masalah pembelajaran multitask. Dengan kata lain, asisten AI perlu menguasai beberapa keterampilan sekaligus untuk dapat melakukan pekerjaannya.
Yang lebih mengejutkan lagi adalah model AI yang berkinerja baik di bidang umum juga sama bagusnya di bidang belanja online. Hal ini menunjukkan bahwa asisten AI dapat mentransfer pengetahuan umum ke bidang tertentu dan mempelajari keterampilan baru dengan cepat.
Tentu saja, asisten AI pada dasarnya tidak sempurna. Para peneliti telah menemukan bahwa beberapa metode pelatihan AI yang umum digunakan, seperti penyempurnaan instruksi (IFT), dalam beberapa kasus dapat menyebabkan overfitting model, yang pada gilirannya memengaruhi performanya.
Selain itu, pembelajaran beberapa kali juga merupakan tantangan besar yang dihadapi asisten AI. Artinya, asisten AI perlu belajar dengan cepat saat menghadapi tugas baru dan tidak selalu bisa mengandalkan data pelatihan dalam jumlah besar.
Singkatnya, tolok ukur MMLU Belanja Amazon menunjukkan arah pengembangan asisten AI. Di masa depan, kami berharap dapat melihat asisten AI belanja online yang lebih cerdas dan manusiawi yang akan membuat pengalaman berbelanja kami lebih nyaman dan menyenangkan.
Para peneliti juga menemukan beberapa detail yang perlu diperhatikan:
MMLU Belanja lebih kompleks dan menantang dibandingkan kumpulan data AI belanja online lainnya yang sudah ada.
Menyempurnakan instruksi khusus domain tidak selalu berfungsi dengan baik, dan hanya berfungsi pada model kuat yang sudah memiliki banyak pengetahuan umum.
Saat ini, bahkan model AI tercanggih sekalipun tidak berfungsi sebaik algoritma yang dirancang khusus untuk tugas-tugas belanja online tertentu.
Hasil penelitian ini menunjukkan bahwa jalan masih panjang untuk membangun asisten AI belanja online yang sempurna. Arah penelitian di masa depan meliputi: mengembangkan metode pelatihan AI yang lebih efektif, membangun kumpulan data AI belanja online yang lebih beragam, dan menggabungkan model AI dengan algoritma khusus tugas untuk menciptakan sistem AI hybrid yang lebih kuat.
Terakhir, para peneliti juga dengan jujur menunjukkan beberapa keterbatasan penelitian ini:
Data di MMLU Belanja sebagian besar berasal dari Amazon dan mungkin tidak sepenuhnya mewakili perilaku pengguna platform e-niaga lainnya.
Meskipun para peneliti berupaya menghindarinya, data di MMLU Belanja mungkin masih mengandung beberapa kesalahan.
Secara keseluruhan, penelitian Amazon ini membuka pintu menuju era belanja cerdas di masa depan. Saya percaya bahwa dalam waktu dekat, asisten AI belanja online akan menjadi bagian tak terpisahkan dari kehidupan kita.
Alamat makalah: https://arxiv.org/pdf/2410.20745
Kode data dan evaluasi:
https://github.com/KL4805/ShoppingMMLU
Workshop KDD Cup 2024 dan solusi tim pemenangan:
https://amazon-kddcup24.github.io/
Daftar evaluasi:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
Melalui uji benchmark Shopping MMLU yang diluncurkan oleh Amazon, kita dapat memperoleh pemahaman yang lebih jelas tentang status aplikasi saat ini dan arah pengembangan masa depan model bahasa besar di bidang belanja online. Penelitian ini tidak hanya memberikan referensi berharga untuk penyempurnaan model AI, namun juga menunjukkan cara untuk meningkatkan pengalaman belanja online pengguna, yang menandai datangnya era belanja yang lebih cerdas dan nyaman.