In jüngster Zeit wurde in "Minecraft" eine einzigartige AI -Fähigkeitsbewertung gestartet, die weit verbreitete Aufmerksamkeit erregt. Verschiedene KI -Modelle konkurrieren im Spiel und entscheiden sich für das Überleben der Fitter durch Spielerabstimmungen und bieten neue Ideen für die Bewertung der KI -Funktionen. Dieser von Entwickler ADI initiierte Test ist eine wirksame Ergänzung zur aktuellen KI -Bewertung.
Kürzlich wurde auf der "Minecraft" -Plattform eine einzigartige AI -Fähigkeitsbewertung gestartet, die viel Aufmerksamkeit auf sich zog. Die neuen und alten Versionen von Claude 3.5Sonnet haben im Spiel Architektur -PK auf den Markt gebracht und zeigten offensichtliche Fähigkeitenunterschiede, und die Leistung der neuen Version (vorläufig als "Sonnet 3.6" bezeichnet) ist besonders beeindruckend.
Dieser von Entwickler ADI initiierte Test wird als "einziger zuverlässiger Bewertungsbenchmark" bezeichnet. Der Bewertungsbenchmarkforscher Aidan McLau ist der Ansicht, dass diese Methode nur den aktuellen Bedürfnissen der AI -Bewertung erfüllt, und weist darauf hin, dass die ästhetischen Fähigkeiten eng mit der intellektuellen Ebene zusammenhängen. Das Projekt erhielt schnell Unterstützung von der Open -Source -Community, und der entsprechende Code wurde auf GitHub gestartet.
Die Testergebnisse zeigen, dass alle Hauptmodelle eine einzigartige "Persönlichkeit" zeigen:
Sonnet3.6 ist in Bezug auf die Kreativität etwas besser und hat die Stimmen von mehr als 2.000 Internetnutzern gewonnen
Obwohl die O1-Vorsicht von OpenAI nur langsam baut, ist es eine gute Leistung bei der Wiederherstellung realer Gebäude (wie dem Taj Mahal).
O1-mini können verwandte Aufgaben nicht erledigen
Llama3405b baut "Diamond Walls on Fire Pits", die sich selbst symbolisieren
Alibabas Qwen2.5-14b zeigte ebenfalls eine ausstehende Stärke
Es ist erwähnenswert, dass der Konstruktionsprozess von KI im Spiel nicht auf visuellem Verständnis beruht oder das Eingabegerät direkt steuert, sondern einen Kontext bietet und Operationsanweisungen über Text generiert, ähnlich wie Blind Chess. Die Technologie -Implementierung hängt hauptsächlich auf:
MineFlayer Open Source Library: Umwandlung von AI-generierten Anweisungen in ausführbare API-Aufrufe
Mindcraft Open Source Library: Bietet allgemeine schnelle Wörter und Beispiele und unterstützt verschiedene Modelle für den Zugriff auf Spiele
Das Projektteam plant, diesen Bewertungsmechanismus weiter zu verbessern, ein Bewertungssystem zu erstellen, das der LMSYS -Arena ähnelt, und den ELO -Algorithmus zu verwenden, um nach menschlicher Nutzerabstimmung zu rangieren. Es wird berichtet, dass die vollständige Testumgebung in nur 15 Minuten abgeschlossen werden kann.
Diese neuartige Bewertungsmethode zeigt nicht nur die Kreativität von KI, sondern bietet auch eine neue Perspektive für die objektive Bewertung großer Modellfunktionen. So wie O1-Präview einen Roboter erstellt und das Wort "GPT" erstellt, wenn es frei zu spielen ist, scheint die KI begonnen zu haben, seine "Persönlichkeit" in dieser virtuellen Welt zu zeigen. Da mehr Modelle zum Test hinzugefügt werden, wird dieses klassische Spiel zu einer einzigartigen Plattform, um die Entwicklung von KI zu beobachten.
Video -Tutorial:
https://x.com/mckaywigley/status/1849613686098506064
Open Source -Code:
https://github.com/kolbytn/mindcraft
https://github.com/mcbench/orchestrator
Die AI -Modellbuilding -Fähigkeitsbewertung, die über die Minecraft -Plattform durchgeführt wird, bietet eine neue Perspektive für die Bewertung der Kreativität und Intelligenz von AI und demonstriert auch das kontinuierliche Entwicklungspotential der KI in der virtuellen Welt. In Zukunft wird diese Bewertung in Zukunft mehr Modelle für die Entwicklung des KI -Feldes wertvolle Referenzen liefern.