ทีมวิจัยของ Amazon ได้เปิดตัว Shopping MMLU ซึ่งเป็นเกณฑ์มาตรฐานการช็อปปิ้งออนไลน์แบบหลายงานโดยอิงตามข้อมูลจริงของ Amazon ซึ่งออกแบบมาเพื่อประเมินศักยภาพของโมเดลภาษาขนาดใหญ่ (LLM) อย่างครอบคลุมในฐานะผู้ช่วยช้อปปิ้งทั่วไป เกณฑ์มาตรฐานประกอบด้วย 57 งาน ครอบคลุม 4 โมดูล ได้แก่ การทำความเข้าใจแนวคิด การใช้เหตุผลเชิงความรู้ การจัดวางพฤติกรรมผู้ใช้ และความสามารถหลายภาษา เพื่อตรวจสอบว่าผู้ช่วย AI สามารถเข้าใจความต้องการของผู้ใช้เหมือนคู่มือช้อปปิ้งจริงและให้บริการที่แม่นยำหรือไม่ ด้วยการทดสอบโมเดล AI มากกว่า 20 โมเดล Shopping MMLU เผยให้เห็นธรรมชาติการเรียนรู้แบบหลายงานของการช้อปปิ้งออนไลน์ และชี้ให้เห็นถึงความท้าทายที่โมเดล AI ที่มีอยู่ต้องเผชิญในการใช้งานในสาขาเฉพาะ เช่น การปรับคำสั่งอย่างละเอียดมากเกินไป และความยากลำบากในการถ่ายภาพไม่กี่ครั้ง การเรียนรู้. .
แมชชีนเลิร์นนิงได้แทรกซึมเข้าไปในบริการออนไลน์ต่างๆ แล้ว และการช้อปปิ้งออนไลน์ก็เป็นหนึ่งในด้านที่ประสบความสำเร็จมากที่สุด ในช่วงไม่กี่ปีที่ผ่านมา การเรียนรู้ของเครื่องได้ถูกนำมาใช้กับงานช้อปปิ้งออนไลน์ต่างๆ เช่น การสอบถามของผู้ใช้ บันทึกการเรียกดู การวิเคราะห์บทวิจารณ์ การแยกคุณลักษณะของผลิตภัณฑ์ เป็นต้น เพื่อส่งเสริมการพัฒนาวิธีการเรียนรู้ของเครื่อง จึงได้มีการพัฒนาเกณฑ์มาตรฐานจำนวนมากเพื่อลดเกณฑ์สำหรับนักวิจัยและวิศวกรในการพัฒนาและประเมินโซลูชันใหม่ๆ สำหรับงานช็อปปิ้งออนไลน์จริง
อย่างไรก็ตาม โมเดลและเกณฑ์มาตรฐานที่มีอยู่มักได้รับการปรับแต่งให้เหมาะกับงานเฉพาะเจาะจง และไม่สามารถเข้าใจความซับซ้อนของการช้อปปิ้งออนไลน์ได้ทั้งหมด Large Language Models (LLMs) ซึ่งมีความสามารถในการเรียนรู้แบบมัลติทาสก์และการเรียนรู้ไม่กี่ครั้ง มีศักยภาพในการปฏิวัติประสบการณ์การช็อปปิ้งออนไลน์โดยการลดความพยายามทางวิศวกรรมสำหรับงานเฉพาะและให้การสนทนาแบบโต้ตอบแก่ผู้ใช้ แม้จะมีศักยภาพที่ยอดเยี่ยม แต่โมเดลภาษาขนาดใหญ่ยังเผชิญกับความท้าทายที่ไม่เหมือนใครในโดเมนการช็อปปิ้งออนไลน์ เช่น แนวคิดการช็อปปิ้งเฉพาะโดเมน ความรู้โดยปริยาย และพฤติกรรมผู้ใช้ที่แตกต่างกัน
เพื่อจัดการกับความท้าทายเหล่านี้ นักวิจัยของ Amazon ได้เสนอ Shopping MMLU ซึ่งเป็นเกณฑ์มาตรฐานการช็อปปิ้งออนไลน์แบบหลายงานโดยอิงตามข้อมูลจริงของ Amazon Shopping MMLU มี 57 งานครอบคลุม 4 ทักษะการช็อปปิ้งหลัก ได้แก่ การทำความเข้าใจแนวคิด การใช้เหตุผลเชิงความรู้ การจัดวางพฤติกรรมผู้ใช้ และความสามารถหลายภาษา ดังนั้นจึงสามารถประเมินศักยภาพของโมเดลภาษาขนาดใหญ่ในฐานะผู้ช่วยช้อปปิ้งแบบสากลได้อย่างครอบคลุม
MMLU สำหรับการช็อปปิ้งนี้ไม่ใช่ "ข้อสอบ" ทั่วไป โดยแยกงาน 57 งานจากข้อมูลการช็อปปิ้งของ Amazon จริง ซึ่งครอบคลุม 4 โมดูลหลัก ได้แก่ การทำความเข้าใจแนวคิด การใช้เหตุผลเชิงความรู้ การจัดตำแหน่งพฤติกรรมของผู้ใช้ และความสามารถหลายภาษา พูดง่ายๆ คือการตรวจสอบว่าผู้ช่วย AI สามารถเข้าใจความต้องการของคุณและช่วยค้นหาลูกน้อยที่คุณต้องการได้เหมือนคู่มือช้อปปิ้งจริงหรือไม่
นักวิจัยของ Amazon ทดสอบโมเดล AI ที่มีอยู่มากกว่า 20 โมเดลด้วย Shopping MMLU และพบว่า:
โมเดล AI ที่เป็นกรรมสิทธิ์ซึ่งเป็นที่รู้จัก เช่น Claude-3Sonnet และ ChatGPT ทำงานได้ดีมากและอยู่ในระดับแรกอย่างมั่นคง อย่างไรก็ตาม โมเดล AI แบบโอเพ่นซอร์สยังตามทันและมีแรงผลักดันในการท้าทาย "อำนาจ"
ผลการทดสอบของ Shopping MMLU ยังเผยให้เห็นปรากฏการณ์ที่น่าสนใจอีกด้วย จริงๆ แล้วการช็อปปิ้งออนไลน์เป็นปัญหาการเรียนรู้แบบหลายงาน กล่าวอีกนัยหนึ่ง ผู้ช่วย AI จำเป็นต้องเชี่ยวชาญหลายทักษะพร้อมกันจึงจะสามารถทำงานได้
สิ่งที่น่าแปลกใจยิ่งกว่านั้นคือโมเดล AI ที่ทำงานได้ดีในด้านทั่วไปนั้นก็ทำได้ดีไม่แพ้กันในด้านการซื้อของออนไลน์ แสดงให้เห็นว่าผู้ช่วย AI สามารถถ่ายทอดความรู้ทั่วไปไปยังสาขาเฉพาะและเรียนรู้ทักษะใหม่ๆ ได้อย่างรวดเร็ว
แน่นอนว่าผู้ช่วย AI ไม่ได้สมบูรณ์แบบโดยเนื้อแท้ นักวิจัยพบว่าวิธีการฝึกอบรม AI ที่ใช้กันทั่วไปบางวิธี เช่น การปรับแต่งคำสั่งอย่างละเอียด (IFT) อาจนำไปสู่การปรับแต่งโมเดลมากเกินไปในบางกรณี ซึ่งจะส่งผลต่อประสิทธิภาพของโมเดล
นอกจากนี้ การเรียนรู้แบบไม่กี่ช็อตยังเป็นความท้าทายสำคัญที่ผู้ช่วย AI ต้องเผชิญ ซึ่งหมายความว่าผู้ช่วย AI จำเป็นต้องเรียนรู้อย่างรวดเร็วเมื่อต้องเผชิญกับงานใหม่ๆ และไม่สามารถพึ่งพาข้อมูลการฝึกอบรมจำนวนมากได้เสมอไป
กล่าวโดยสรุป เกณฑ์มาตรฐาน Shopping MMLU ของ Amazon ชี้ให้เห็นทิศทางในการพัฒนาผู้ช่วย AI ในอนาคต เราหวังว่าจะได้เห็นผู้ช่วย AI ช้อปปิ้งออนไลน์ที่ชาญฉลาดและมีมนุษยธรรมมากขึ้น ซึ่งจะทำให้ประสบการณ์การช็อปปิ้งของเราสะดวกและสนุกสนานยิ่งขึ้น
นักวิจัยยังได้ค้นพบรายละเอียดบางอย่างที่น่าสังเกต:
Shopping MMLU มีความซับซ้อนและท้าทายกว่าชุดข้อมูล AI สำหรับการช้อปปิ้งออนไลน์อื่นๆ ที่มีอยู่
คำแนะนำเฉพาะโดเมนที่ปรับแต่งอย่างละเอียดอาจไม่ได้ผลดีเสมอไป และใช้ได้เฉพาะกับโมเดลที่แข็งแกร่งซึ่งมีความรู้ทั่วไปอยู่แล้วเท่านั้น
ในปัจจุบัน แม้แต่โมเดล AI ที่ทันสมัยที่สุดก็ยังทำงานได้ไม่ดีนักในงานช้อปปิ้งออนไลน์บางงาน เนื่องจากอัลกอริธึมที่ออกแบบมาสำหรับงานเหล่านี้โดยเฉพาะ
ผลการศึกษาครั้งนี้แสดงให้เห็นว่ายังมีหนทางอีกยาวไกลในการสร้างผู้ช่วย AI สำหรับการช้อปปิ้งออนไลน์ที่สมบูรณ์แบบ ทิศทางการวิจัยในอนาคต ได้แก่ การพัฒนาวิธีการฝึกอบรม AI ที่มีประสิทธิภาพมากขึ้น การสร้างชุดข้อมูล AI การช้อปปิ้งออนไลน์ที่หลากหลายมากขึ้น และการรวมโมเดล AI เข้ากับอัลกอริธึมเฉพาะงานเพื่อสร้างระบบ AI แบบไฮบริดที่ทรงพลังยิ่งขึ้น
สุดท้ายนี้ นักวิจัยยังได้ชี้ให้เห็นข้อจำกัดบางประการของการศึกษานี้อย่างตรงไปตรงมา:
ข้อมูลใน Shopping MMLU มาจาก Amazon เป็นหลักและอาจไม่ได้แสดงถึงพฤติกรรมผู้ใช้ของแพลตฟอร์มอีคอมเมิร์ซอื่นๆ อย่างสมบูรณ์
แม้ว่านักวิจัยจะพยายามหลีกเลี่ยงแล้ว แต่ข้อมูลใน Shopping MMLU อาจยังคงมีข้อผิดพลาดอยู่บ้าง
โดยรวมแล้ว การวิจัยของ Amazon นี้เปิดประตูสู่ยุคแห่งอนาคตของการช้อปปิ้งอัจฉริยะ ฉันเชื่อว่าในอนาคตอันใกล้นี้ ผู้ช่วย AI สำหรับการช้อปปิ้งออนไลน์จะกลายเป็นส่วนสำคัญในชีวิตของเรา
ที่อยู่กระดาษ: https://arxiv.org/pdf/2410.20745
ข้อมูลและรหัสการประเมินผล:
https://github.com/KL4805/ShoppingMMLU
เวิร์คช็อป KDD Cup 2024 และวิธีแก้ปัญหาของทีมที่ชนะ:
https://amazon-kddcup24.github.io/
รายการการประเมินผล:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
ผ่านการทดสอบเกณฑ์มาตรฐาน Shopping MMLU ที่เปิดตัวโดย Amazon ทำให้เรามีความเข้าใจที่ชัดเจนยิ่งขึ้นเกี่ยวกับสถานะแอปพลิเคชันปัจจุบันและทิศทางการพัฒนาในอนาคตของโมเดลภาษาขนาดใหญ่ในด้านการช็อปปิ้งออนไลน์ งานวิจัยนี้ไม่เพียงแต่ให้ข้อมูลอ้างอิงที่มีคุณค่าสำหรับการปรับปรุงโมเดล AI เท่านั้น แต่ยังชี้ให้เห็นถึงวิธีการปรับปรุงประสบการณ์การช้อปปิ้งออนไลน์ของผู้ใช้ ถือเป็นการประกาศการมาถึงของยุคการช้อปปิ้งที่ชาญฉลาดและสะดวกสบายยิ่งขึ้น