Der Herausgeber von Downcodes erfuhr, dass Apple kürzlich eine Studie über die mathematischen Denkfähigkeiten großer Sprachmodelle (LLM) veröffentlicht hat, die in der Branche große Aufmerksamkeit erregt hat. Diese Studie hinterfragt die Leistung bestehender LLM im GSM8K-Benchmark und stellt einen verbesserten Benchmark GSM-Symbolic vor, um die Argumentationsfähigkeiten von LLM zuverlässiger zu bewerten. Diese Forschung ist von großer Bedeutung für das Verständnis der Grenzen des LLM im Bereich der Mathematik und liefert auch wertvolle Einblicke in die Richtung zukünftiger Verbesserungen des LLM.
Kürzlich führte Apple eine Studie über die Argumentationsfähigkeiten großer Sprachmodelle (LLM) durch und äußerte Bedenken hinsichtlich der Leistung dieser Modelle im Bereich der Mathematik.
Es ist bekannt, dass der GSM8K-Benchmark häufig zur Bewertung der Argumentationsfähigkeit von Modellen bei Mathematikproblemen in der Grundschule verwendet wird. Obwohl sich die Leistung von LLM auf GSM8K in den letzten Jahren verbessert hat, haben Forscher die Zuverlässigkeit dieses Ergebnisses in Frage gestellt. Daher führten sie eine groß angelegte Studie durch, um die Leistung aktueller Open-Source- und Closed-Source-Modelle auf dem neuesten Stand der Technik zu untersuchen.
Um die Argumentationsfähigkeit des Modells besser bewerten zu können, führte das Forschungsteam einen verbesserten Benchmark-Test ein – GSM-Symbolic. Dieser neue Benchmark verwendet symbolische Vorlagen, um verschiedene Fragen zu generieren, was eine bessere Kontrolle über den Bewertungsprozess ermöglicht und zuverlässigere Metriken liefert.
Die Studie ergab, dass die Leistung von LLM erheblich schwankte, wenn die numerischen Werte im Problem geändert wurden. Interessanter ist, dass die Leistung des Modells deutlich abnimmt, wenn die Anzahl der Begriffe in der Frage zunimmt. Die Forscher spekulieren, dass dieser Leistungsabfall darauf hindeutet, dass bestehende LLMs nicht über echte logische Denkfähigkeiten verfügen, sondern lediglich die Denkschritte in den Trainingsdaten nachahmen.
In Experimenten sank die Leistung aller hochmodernen Modelle um bis zu 65 %, wenn nur ein scheinbar relevanter Begriff hinzugefügt wurde. Obwohl diese Begriffe nichts mit der Argumentationskette zu tun haben, die zur endgültigen Antwort führt, haben sie dennoch einen großen Einfluss auf die Leistung des Modells. Insgesamt liefert uns diese Studie ein tieferes Verständnis der Fähigkeiten und Grenzen des LLM im mathematischen Denken.
Highlight:
Die mathematische Denkfähigkeit von LLM zeigt offensichtliche Unterschiede in verschiedenen Problemfällen.
„Mit zunehmender Problemkomplexität nimmt die Leistung von LLM deutlich ab, insbesondere nach dem Hinzufügen zusätzlicher Begriffe.“
Bestehende LLMs verfügen nicht über echte logische Denkfähigkeiten und basieren hauptsächlich auf der Wiederholung und Nachahmung von Trainingsdaten.
Diese Studie von Apple deckt die Mängel großer Sprachmodelle im mathematischen Denken auf und liefert wichtige Hinweise für zukünftige Modellverbesserungen. Es wird erwartet, dass weitere Forschungen die Fähigkeit des LLM zum logischen Denken verbessern und es näher an das menschliche kognitive Niveau heranführen. Der Herausgeber von Downcodes wird die neuesten Entwicklungen in diesem Bereich weiterhin aufmerksam verfolgen.