亞馬遜研究團隊發布了Shopping MMLU,一個基於真實亞馬遜數據的多任務線上購物基準測試,旨在全面評估大型語言模型(LLM) 作為通用購物助手的潛力。此基準包含57項任務,涵蓋概念理解、知識推理、使用者行為對齊和多語言能力四大模組,以檢視AI助理能否像真人導購一樣理解使用者需求,並提供精準服務。透過20多個AI模型的測試,Shopping MMLU揭示了網購的多任務學習本質,並指出了現有AI模型在特定領域應用中面臨的挑戰,例如指令微調的過度擬合和少樣本學習的困難。
機器學習早已滲透到各種線上服務中,網購便是其中最成功的領域之一。近年來,機器學習被應用於各種網購任務,例如使用者查詢、瀏覽記錄、評論分析、產品屬性提取等等。為了促進機器學習方法的發展,許多基準測試應運而生,旨在降低研究人員和工程師開發和評估針對真實網購任務的新穎解決方案的門檻。
然而,現有的模型和基準通常是為特定任務量身定制的,無法完全捕捉網購的複雜性。大型語言模型(LLM) 憑藉其多任務和少樣本學習能力,有可能透過減少特定任務的工程工作量並為用戶提供互動式對話來徹底改變線上購物體驗。儘管潛力巨大,但大型語言模型在線上購物領域也面臨著獨特的挑戰,例如特定領域的購物概念、隱性知識和異質的使用者行為。
為了回應這些挑戰,亞馬遜的研究人員提出Shopping MMLU,這是一個基於真實亞馬遜資料的多任務線上購物基準測試。 Shopping MMLU 包含57項任務,涵蓋4大購物技能:概念理解、知識推理、使用者行為對齊和多語言能力,因此可以全面評估大型語言模型作為通用購物助手的潛力。
這Shopping MMLU 可不是一般的“考試”,它可是從真實的亞馬遜購物數據中提取了57項任務,涵蓋了概念理解、知識推理、用戶行為對齊和多語言能力四大模組。簡單來說,就是要檢視AI 助理是否能像真人導購一樣,理解你的需求,幫你找到心儀的寶貝。
亞馬遜的研究人員用Shopping MMLU 測試了20多個現有的AI 模型,結果發現:
那些大名鼎鼎的專有AI 模型,例如Claude-3Sonnet、ChatGPT,表現確實不俗,穩坐第一梯隊。 不過,開源的AI 模型也迎頭趕上,大有挑戰「權威」的勢頭。
Shopping MMLU 的測試結果也揭示了一個有趣的現象:網購其實是一個多任務學習問題。 也就是說,AI 助理需要同時掌握多種技能才能勝任這份工作。
更令人驚訝的是,那些在通用領域表現出色的AI 模型,在網購領域也毫不遜色。 這說明,AI 助理可以將通用知識遷移到特定領域,快速學習新技能。
當然,AI 助理也並非天生完美。 研究人員發現,一些常用的AI 訓練方法,例如指令微調(IFT),在某些情況下可能會導致模型過度擬合,反而影響其效能。
此外,少樣本學習也是AI 助理面臨的一大挑戰。 這意味著,AI 助理在面對新任務時,需要快速學習,而不能總是依賴大量的訓練資料。
總之,亞馬遜的Shopping MMLU 基準測試為AI 助理的發展指明了方向。未來,我們期待看到更智慧、更人性化的網購AI 助手,讓我們的購物體驗更加便利、更愉悅。
研究人員也發現了一些值得關注的細節:
Shopping MMLU 比現有的其他網購AI 資料集更加複雜和具有挑戰性。
特定領域的指令微調效果並不總是很好,而且只在已經掌握大量通用知識的強大模型上才有效。
目前,即使是最先進的AI 模型,在某些網購任務上的表現也不如專門針對這些任務設計的演算法。
這項研究的結果表明,建造一個完美的網購AI 助理還有很長的路要走。未來的研究方向包括:開發更有效的AI 訓練方法,建構更多樣化的網購AI 資料集,以及將AI 模型與特定任務演算法結合,打造更強大的混合型AI 系統。
最後,研究人員也坦誠地指出了這項研究的一些限制:
Shopping MMLU 中的資料主要來自亞馬遜,可能無法完全代表其他電商平台的使用者行為。
儘管研究人員已經盡力避免,但Shopping MMLU 中的數據可能仍存在一些錯誤。
總而言之,亞馬遜的這項研究為我們打開了通往未來智慧購物時代的大門。相信在不久的將來,網購AI 助理將成為我們生活中不可或缺的一部分。
論文網址:https://arxiv.org/pdf/2410.20745
數據及評測代碼:
https://github.com/KL4805/ShoppingMMLU
KDD Cup 2024 Workshop及獲獎隊伍解法:
https://amazon-kddcup24.github.io/
評估榜單:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
透過亞馬遜推出的Shopping MMLU基準測試,我們可以更清楚地了解大型語言模式在網路購買領域的應用現況與未來發展方向。這項研究不僅為AI模型的改進提供了寶貴的參考,也為提升用戶線上購物體驗指明了道路,預示著更聰明、便利的購物時代即將來臨。