Kürzlich wurde auf der „Minecraft“-Plattform eine einzigartige KI-Fähigkeitsbewertung gestartet, die viel Aufsehen erregte. Dieser vom Entwickler adi initiierte und als „der einzige zuverlässige KI-Bewertungsbenchmark“ bezeichnete Test ermöglichte es der neuen und alten Version des Claude3.5-Sonnet-Modells, eine Konstruktions-PK im Spiel zu starten. Die neue Version von Sonnet3.6 zeigte eine beeindruckende Leistung . Stärke. Der Herausgeber von Downcodes wird Ihnen einen detaillierten Einblick in diesen einzigartigen Wettbewerb um KI-Fähigkeiten sowie die technischen Details und Zukunftsaussichten dahinter geben.
Kürzlich wurde auf der „Minecraft“-Plattform eine einzigartige KI-Fähigkeitsbewertung gestartet, die viel Aufsehen erregte. Die alte und die neue Version von Claude 3.5 Sonnet haben mit dem Aufbau von PK im Spiel begonnen und weisen offensichtliche Unterschiede in den Fähigkeiten auf. Besonders auffällig war die Leistung der neuen Version (vorläufig Sonnet 3.6 genannt).
Dieser vom Entwickler adi initiierte Test gilt als einziger verlässlicher Bewertungsbenchmark. Der Evaluierungs-Benchmark-Forscher Aidan McLau glaubt, dass diese Methode genau den Anforderungen der aktuellen KI-Evaluierung entspricht, und weist darauf hin, dass ästhetische Fähigkeiten eng mit dem Intelligenzniveau verknüpft sind. Das Projekt erhielt schnell Unterstützung von der Open-Source-Community und der entsprechende Code war online auf GitHub.
Die Testergebnisse zeigen, dass jedes große Model eine einzigartige Persönlichkeit zeigt:
Sonnet3.6 ist in puncto Kreativität etwas besser und erhielt Stimmen von mehr als 2.000 Internetnutzern.
Obwohl der Aufbau von o1-preview von OpenAI langsam ist, funktioniert es gut bei der Restaurierung realer Gebäude (wie dem Taj Mahal).
o1-mini kann entsprechende Aufgaben nicht abschließen
Lama3405B baute eine Diamantwand über einer Feuerstelle, die das Selbst symbolisiert
Alibabas Qwen2.5-14B zeigte ebenfalls große Stärke
Es ist erwähnenswert, dass der Konstruktionsprozess der KI im Spiel nicht auf visuellem Verständnis oder direkter Steuerung von Eingabegeräten beruht, sondern Kontext bereitstellt und Handlungsanweisungen in Textform generiert, ähnlich wie beim Blindschachspielen. Die technische Umsetzung basiert hauptsächlich auf:
Open-Source-Bibliothek „mineflayer“: Konvertieren Sie von der KI generierte Anweisungen in ausführbare API-Aufrufe
Mindcraft Open-Source-Bibliothek: Bietet allgemeine Aufforderungswörter und Beispiele und unterstützt verschiedene Modelle, die mit dem Spiel verbunden werden können
Das Projektteam plant, diesen Bewertungsmechanismus weiter zu verbessern und ein Bewertungssystem ähnlich Lmsys Arena zu erstellen, das den Elo-Algorithmus verwendet, um eine Rangfolge auf der Grundlage menschlicher Benutzerstimmen zu erstellen. Berichten zufolge kann die komplette Testumgebung in nur 15 Minuten eingerichtet werden.
Diese neuartige Bewertungsmethode demonstriert nicht nur die Kreativität der KI, sondern bietet auch eine neue Perspektive für die objektive Bewertung der Fähigkeiten großer Modelle. Gerade als sich o1-preview dafür entschied, einen Roboter zu bauen und im freien Spiel die Worte GPT zu buchstabieren, scheint die KI begonnen zu haben, in dieser virtuellen Welt ihre eigene Persönlichkeit zu zeigen. Da dem Test immer mehr Modelle hinzugefügt werden, wird dieses klassische Spiel zu einer einzigartigen Plattform, um die Entwicklung der KI mitzuerleben.
Video-Tutorial:
https://x.com/mckaywrigley/status/1849613686098506064
Open-Source-Code:
https://github.com/kolbytn/mindcraft
https://github.com/mc-bench/orchestrator
Bei diesem einzigartigen Minecraft-KI-Konstruktionswettbewerb haben wir die unterschiedlichen Leistungen der KI in Bezug auf Kreativität und Problemlösungsfähigkeiten gesehen. Dieser Test liefert eine neue Idee für die Bewertung der KI-Fähigkeit und weist auch darauf hin, dass die KI-Technologie in Zukunft einen größeren Entwicklungsspielraum haben wird. Wir freuen uns darauf, dass weitere Modelle dabei sein werden, um Zeuge der Wunder zu werden, die die KI in „Minecraft“ geschaffen hat!