Das Amazon-Forschungsteam veröffentlichte Shopping MMLU, einen Multitasking-Online-Shopping-Benchmark, der auf echten Amazon-Daten basiert und darauf ausgelegt ist, das Potenzial großer Sprachmodelle (LLM) als allgemeiner Einkaufsassistent umfassend zu bewerten. Der Benchmark umfasst 57 Aufgaben, die vier Module abdecken: Konzeptverständnis, Wissensbegründung, Ausrichtung des Benutzerverhaltens und Mehrsprachigkeitsfähigkeiten, um zu untersuchen, ob der KI-Assistent die Benutzerbedürfnisse wie ein echter Einkaufsführer verstehen und genaue Dienste bereitstellen kann. Durch das Testen von mehr als 20 KI-Modellen zeigt Shopping MMLU den Multitasking-Lerncharakter des Online-Shoppings auf und zeigt die Herausforderungen auf, mit denen bestehende KI-Modelle bei der Anwendung in bestimmten Bereichen konfrontiert sind, wie z Lernen.
Maschinelles Lernen ist bereits in verschiedene Online-Dienste vorgedrungen und Online-Shopping ist einer der erfolgreichsten Bereiche. In den letzten Jahren wurde maschinelles Lernen auf verschiedene Online-Einkaufsaufgaben angewendet, wie z. B. Benutzerabfragen, Browsing-Datensätze, Bewertungsanalyse, Extraktion von Produktattributen usw. Um die Entwicklung maschineller Lernmethoden voranzutreiben, wurden viele Benchmarks entwickelt, um die Schwelle für Forscher und Ingenieure zu senken, neuartige Lösungen für reale Online-Shopping-Aufgaben zu entwickeln und zu bewerten.
Bestehende Modelle und Benchmarks sind jedoch oft auf spezifische Aufgaben zugeschnitten und können die Komplexität des Online-Shoppings nicht vollständig abbilden. Large Language Models (LLMs) mit ihren Multitasking- und Fear-Shot-Lernfähigkeiten haben das Potenzial, das Online-Einkaufserlebnis zu revolutionieren, indem sie den Entwicklungsaufwand für bestimmte Aufgaben reduzieren und den Benutzern interaktive Gespräche ermöglichen. Trotz ihres großen Potenzials stehen groß angelegte Sprachmodelle im Online-Shopping-Bereich auch vor besonderen Herausforderungen, wie z. B. domänenspezifischen Einkaufskonzepten, implizitem Wissen und heterogenem Benutzerverhalten.
Um diese Herausforderungen anzugehen, schlugen Amazon-Forscher Shopping MMLU vor, einen Multitasking-Online-Shopping-Benchmark, der auf echten Amazon-Daten basiert. Shopping MMLU umfasst 57 Aufgaben, die vier wichtige Einkaufskompetenzen abdecken: konzeptionelles Verständnis, wissensbasiertes Denken, Ausrichtung des Benutzerverhaltens und Mehrsprachigkeit, sodass das Potenzial großer Sprachmodelle als universelle Einkaufsassistenten umfassend bewertet werden kann.
Diese Shopping-MMLU ist keine gewöhnliche „Prüfung“. Sie extrahiert 57 Aufgaben aus echten Amazon-Shopping-Daten und deckt vier Hauptmodule ab: konzeptionelles Verständnis, Wissensbegründung, Ausrichtung des Benutzerverhaltens und Mehrsprachigkeit. Vereinfacht gesagt geht es darum, zu prüfen, ob der KI-Assistent Ihre Bedürfnisse verstehen und Ihnen wie ein echter Einkaufsführer dabei helfen kann, das gewünschte Baby zu finden.
Amazon-Forscher haben mehr als 20 bestehende KI-Modelle mit Shopping MMLU getestet und herausgefunden:
Die bekannten proprietären KI-Modelle wie Claude-3Sonnet und ChatGPT schneiden wirklich gut ab und liegen fest in der Spitzengruppe. Allerdings holen auch Open-Source-KI-Modelle auf und haben den Schwung, die „Autorität“ herauszufordern.
Die Testergebnisse von Shopping MMLU zeigten auch ein interessantes Phänomen: Online-Shopping ist tatsächlich ein Lernproblem mit mehreren Aufgaben. Mit anderen Worten: Der KI-Assistent muss mehrere Fähigkeiten gleichzeitig beherrschen, um die Arbeit erledigen zu können.
Noch überraschender ist, dass jene KI-Modelle, die im allgemeinen Bereich gute Leistungen erbringen, auch im Bereich Online-Shopping gleichermaßen gut sind. Dies zeigt, dass KI-Assistenten allgemeines Wissen auf bestimmte Bereiche übertragen und schnell neue Fähigkeiten erlernen können.
Natürlich sind KI-Assistenten nicht von Natur aus perfekt. Forscher haben herausgefunden, dass einige häufig verwendete KI-Trainingsmethoden, wie z. B. Instruction Fine-Tuning (IFT), in manchen Fällen zu einer Überanpassung des Modells führen können, was sich wiederum auf die Leistung auswirkt.
Darüber hinaus ist das Lernen mit wenigen Schüssen auch eine große Herausforderung für KI-Assistenten. Das bedeutet, dass KI-Assistenten bei neuen Aufgaben schnell lernen müssen und sich nicht immer auf große Mengen an Trainingsdaten verlassen können.
Kurz gesagt, der Shopping MMLU-Benchmark von Amazon zeigt die Richtung für die Entwicklung von KI-Assistenten auf. Wir freuen uns darauf, in Zukunft intelligentere und menschlichere KI-Assistenten für den Online-Einkauf zu sehen, die unser Einkaufserlebnis komfortabler und angenehmer machen.
Die Forscher entdeckten auch einige bemerkenswerte Details:
Shopping MMLU ist komplexer und anspruchsvoller als andere bestehende Online-Shopping-KI-Datensätze.
Die Feinabstimmung domänenspezifischer Anweisungen funktioniert nicht immer gut und funktioniert nur bei starken Modellen, die bereits über viel Allgemeinwissen verfügen.
Derzeit sind selbst die fortschrittlichsten KI-Modelle bei bestimmten Online-Shopping-Aufgaben nicht so leistungsfähig wie speziell für diese Aufgaben entwickelte Algorithmen.
Die Ergebnisse dieser Studie zeigen, dass es noch ein weiter Weg bis zum Aufbau eines perfekten Online-Shopping-KI-Assistenten ist. Zukünftige Forschungsrichtungen umfassen: die Entwicklung effektiverer KI-Trainingsmethoden, den Aufbau vielfältigerer KI-Datensätze für Online-Einkäufe und die Kombination von KI-Modellen mit aufgabenspezifischen Algorithmen, um leistungsfähigere hybride KI-Systeme zu schaffen.
Abschließend wiesen die Forscher auch offen auf einige Einschränkungen der Studie hin:
Die Daten in Shopping MMLU stammen hauptsächlich von Amazon und spiegeln möglicherweise nicht vollständig das Nutzerverhalten anderer E-Commerce-Plattformen wider.
Trotz der Bemühungen der Forscher, dies zu vermeiden, können die Daten in der Shopping MMLU immer noch einige Fehler enthalten.
Alles in allem öffnet diese Amazon-Recherche die Tür zur zukünftigen Ära des Smart Shopping. Ich glaube, dass KI-Assistenten beim Online-Shopping in naher Zukunft zu einem unverzichtbaren Bestandteil unseres Lebens werden werden.
Papieradresse: https://arxiv.org/pdf/2410.20745
Daten und Auswertungscode:
https://github.com/KL4805/ShoppingMMLU
KDD Cup 2024 Workshop und Lösungen des Gewinnerteams:
https://amazon-kddcup24.github.io/
Bewertungsliste:
https://huggingface.co/spaces/KL4805/shopping_mmlu_leaderboard
Durch den von Amazon gestarteten Shopping MMLU-Benchmark-Test können wir den aktuellen Anwendungsstatus und die zukünftige Entwicklungsrichtung großer Sprachmodelle im Bereich Online-Shopping besser verstehen. Diese Forschung liefert nicht nur wertvolle Hinweise für die Verbesserung von KI-Modellen, sondern weist auch den Weg zur Verbesserung des Online-Einkaufserlebnisses der Benutzer und läutet damit den Beginn eines intelligenteren und bequemeren Einkaufszeitalters ein.