أصدر فريق البحث في أمازون Shopping MMLU، وهو معيار للتسوق عبر الإنترنت متعدد المهام يعتمد على بيانات أمازون الحقيقية، وهو مصمم لإجراء تقييم شامل لإمكانات نماذج اللغات الكبيرة (LLM) كمساعد تسوق عام. يحتوي المعيار على 57 مهمة، تغطي أربع وحدات: فهم المفهوم، والتفكير المعرفي، ومواءمة سلوك المستخدم، وقدرات متعددة اللغات، لفحص ما إذا كان مساعد الذكاء الاصطناعي يمكنه فهم احتياجات المستخدم مثل دليل تسوق حقيقي وتقديم خدمات دقيقة. من خلال اختبار أكثر من 20 نموذجًا للذكاء الاصطناعي، يكشف Shopping MMLU عن طبيعة التعلم متعدد المهام للتسوق عبر الإنترنت ويشير إلى التحديات التي تواجهها نماذج الذكاء الاصطناعي الحالية عند التطبيق في مجالات محددة، مثل الإفراط في الضبط الدقيق للتعليمات وصعوبة اللقطات القليلة تعلُّم. .
لقد تغلغل التعلم الآلي بالفعل في العديد من الخدمات عبر الإنترنت، ويعد التسوق عبر الإنترنت أحد أكثر المجالات نجاحًا. في السنوات الأخيرة، تم تطبيق التعلم الآلي على مهام التسوق المختلفة عبر الإنترنت، مثل استعلامات المستخدم وسجلات التصفح وتحليل المراجعة واستخراج سمات المنتج وما إلى ذلك. لتعزيز تطوير أساليب التعلم الآلي، تم تطوير العديد من المعايير لخفض عتبة الباحثين والمهندسين لتطوير وتقييم حلول جديدة لمهام التسوق الحقيقية عبر الإنترنت.
ومع ذلك، غالبًا ما يتم تصميم النماذج والمعايير الحالية لمهام محددة ولا يمكنها استيعاب مدى تعقيد التسوق عبر الإنترنت بشكل كامل. تتمتع نماذج اللغات الكبيرة (LLMs)، بما تتمتع به من قدرات تعليمية متعددة المهام وعدد قليل من اللقطات، بالقدرة على إحداث ثورة في تجربة التسوق عبر الإنترنت من خلال تقليل الجهد الهندسي لمهام محددة وتزويد المستخدمين بمحادثات تفاعلية. على الرغم من إمكاناتها الكبيرة، تواجه النماذج اللغوية واسعة النطاق أيضًا تحديات فريدة في مجال التسوق عبر الإنترنت، مثل مفاهيم التسوق الخاصة بالمجال، والمعرفة الضمنية، وسلوكيات المستخدم غير المتجانسة.
ولمواجهة هذه التحديات، اقترح باحثو أمازون Shopping MMLU، وهو معيار للتسوق عبر الإنترنت متعدد المهام يعتمد على بيانات أمازون الحقيقية. يحتوي Shopping MMLU على 57 مهمة تغطي 4 مهارات تسوق رئيسية: الفهم المفاهيمي، والتفكير المعرفي، ومواءمة سلوك المستخدم، وقدرات متعددة اللغات، لذلك يمكن تقييم إمكانات النماذج اللغوية الكبيرة كمساعدات تسوق عالمية بشكل شامل.
لا يعد Shopping MMLU "اختبارًا" عاديًا، فهو يستخرج 57 مهمة من بيانات التسوق الحقيقية على Amazon، ويغطي أربع وحدات رئيسية: الفهم المفاهيمي، والتفكير المعرفي، ومواءمة سلوك المستخدم، وقدرات اللغات المتعددة. بكل بساطة، يتعلق الأمر بفحص ما إذا كان مساعد الذكاء الاصطناعي يمكنه فهم احتياجاتك ومساعدتك في العثور على الطفل الذي تريده كدليل تسوق حقيقي.
اختبر باحثو أمازون أكثر من 20 نموذجًا موجودًا للذكاء الاصطناعي باستخدام Shopping MMLU ووجدوا:
إن نماذج الذكاء الاصطناعي الشهيرة هذه، مثل Claude-3Sonnet وChatGPT، تؤدي أداءً جيدًا حقًا وهي في الصف الأول. ومع ذلك، فإن نماذج الذكاء الاصطناعي مفتوحة المصدر بدأت أيضًا في اللحاق بالركب ولديها الزخم لتحدي "السلطة".
كشفت نتائج اختبار التسوق MMLU أيضًا عن ظاهرة مثيرة للاهتمام: التسوق عبر الإنترنت هو في الواقع مشكلة تعليمية متعددة المهام. بمعنى آخر، يحتاج مساعد الذكاء الاصطناعي إلى إتقان مهارات متعددة في نفس الوقت حتى يتمكن من القيام بالمهمة.
والأمر الأكثر إثارة للدهشة هو أن نماذج الذكاء الاصطناعي التي تحقق أداءً جيدًا في المجال العام هي أيضًا جيدة بنفس القدر في مجال التسوق عبر الإنترنت. وهذا يوضح أن مساعدي الذكاء الاصطناعي يمكنهم نقل المعرفة العامة إلى مجالات محددة وتعلم مهارات جديدة بسرعة.
وبطبيعة الحال، فإن مساعدي الذكاء الاصطناعي ليسوا مثاليين بطبيعتهم. لقد وجد الباحثون أن بعض أساليب تدريب الذكاء الاصطناعي شائعة الاستخدام، مثل الضبط الدقيق للتعليمات (IFT)، قد تؤدي إلى الإفراط في ملاءمة النموذج في بعض الحالات، مما يؤثر بدوره على أدائه.
بالإضافة إلى ذلك، يعد التعلم بعدد قليل من اللقطات أيضًا تحديًا كبيرًا يواجه مساعدي الذكاء الاصطناعي. وهذا يعني أن مساعدي الذكاء الاصطناعي بحاجة إلى التعلم بسرعة عندما يواجهون مهام جديدة ولا يمكنهم دائمًا الاعتماد على كميات كبيرة من بيانات التدريب.
باختصار، يشير معيار التسوق MMLU الخاص بأمازون إلى الاتجاه الصحيح لتطوير مساعدي الذكاء الاصطناعي. في المستقبل، نتطلع إلى رؤية مساعدي الذكاء الاصطناعي للتسوق عبر الإنترنت أكثر ذكاءً وإنسانية مما سيجعل تجربة التسوق لدينا أكثر ملاءمة ومتعة.
واكتشف الباحثون أيضًا بعض التفاصيل الجديرة بالملاحظة:
يعد التسوق MMLU أكثر تعقيدًا وتحديًا من مجموعات بيانات الذكاء الاصطناعي الأخرى الخاصة بالتسوق عبر الإنترنت.
لا تعمل تعليمات الضبط الدقيق الخاصة بالمجال دائمًا بشكل جيد، وتعمل فقط على النماذج القوية التي لديها بالفعل الكثير من المعرفة العامة.
حاليًا، حتى نماذج الذكاء الاصطناعي الأكثر تقدمًا لا تؤدي أداءً جيدًا في بعض مهام التسوق عبر الإنترنت مثل الخوارزميات المصممة خصيصًا لهذه المهام.
تظهر نتائج هذه الدراسة أنه لا يزال هناك طريق طويل لنقطعه لبناء مساعد الذكاء الاصطناعي المثالي للتسوق عبر الإنترنت. تشمل التوجهات البحثية المستقبلية ما يلي: تطوير أساليب تدريب أكثر فعالية للذكاء الاصطناعي، وبناء مجموعات بيانات أكثر تنوعًا للتسوق عبر الإنترنت، والجمع بين نماذج الذكاء الاصطناعي وخوارزميات محددة المهام لإنشاء أنظمة ذكاء اصطناعي هجينة أكثر قوة.
أخيرًا، أشار الباحثون أيضًا بصراحة إلى بعض القيود في الدراسة:
تأتي البيانات الموجودة في Shopping MMLU بشكل أساسي من Amazon وقد لا تمثل بشكل كامل سلوك المستخدم لمنصات التجارة الإلكترونية الأخرى.
على الرغم من الجهود التي بذلها الباحثون لتجنب ذلك، فإن البيانات الموجودة في Shopping MMLU ربما لا تزال تحتوي على بعض الأخطاء.
بشكل عام، يفتح بحث أمازون هذا الباب أمام عصر التسوق الذكي المستقبلي. أعتقد أنه في المستقبل القريب، سيصبح مساعدو الذكاء الاصطناعي للتسوق عبر الإنترنت جزءًا لا يتجزأ من حياتنا.
عنوان الورقة: https://arxiv.org/pdf/2410.20745
رمز البيانات والتقييم:
https://github.com/KL4805/ShoppingMMLU
ورشة عمل كأس KDD 2024 وحلول الفريق الفائز:
https://amazon-kddcup24.github.io/
قائمة التقييم:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
من خلال اختبار قياس التسوق MMLU الذي أطلقته أمازون، يمكننا الحصول على فهم أوضح لحالة التطبيق الحالية واتجاه التطوير المستقبلي لنماذج اللغات الكبيرة في مجال التسوق عبر الإنترنت. لا يوفر هذا البحث مرجعًا قيمًا لتحسين نماذج الذكاء الاصطناعي فحسب، بل يشير أيضًا إلى الطريق لتحسين تجربة التسوق عبر الإنترنت للمستخدمين، مما يبشر بقدوم عصر تسوق أكثر ذكاءً وملاءمة.