OpenAI führt SWE-Bench Verified ein: Verbesserung der Bewertung der KI-Software-Engineering-Fähigkeiten

Autor：Eve Cole Aktualisierungszeit：2024-12-05 12:32:01

Der Herausgeber von Downcodes erfuhr, dass OpenAI am 13. August den SWE-bench Verified Code Generation Evaluation Benchmark veröffentlicht hat, der darauf abzielt, die Leistung von KI-Modellen im Bereich Software Engineering genauer zu bewerten. Dieser Schritt zielt darauf ab, die Mängel des ursprünglichen SWE-Benchmark-Benchmarks zu beheben, die Zuverlässigkeit und Genauigkeit der Bewertung zu verbessern und ein effektiveres Bewertungstool für die Anwendung von KI-Modellen in der Softwareentwicklung bereitzustellen. Der neue Benchmark führt eine containerisierte Docker-Umgebung ein, die die Probleme des ursprünglichen Benchmarks löst, wie z. B. zu strenge Unit-Tests, unklare Problembeschreibung und Schwierigkeiten beim Einrichten der Entwicklungsumgebung.

OpenAI kündigte am 13. August die Einführung des SWE-bench Verified Code Generation Evaluation Benchmark an, der darauf abzielt, die Leistung von Modellen der künstlichen Intelligenz bei Softwareentwicklungsaufgaben genauer zu bewerten. Dieser neue Benchmark löst viele Einschränkungen des vorherigen SWE-Benchmarks.

SWE-bench ist ein Bewertungsdatensatz, der auf echten Softwareproblemen auf GitHub basiert und 2294 Issue-Pull-Request-Paare aus 12 beliebten Python-Repositories enthält. Der ursprüngliche SWE-Bench weist jedoch drei Hauptprobleme auf: Die Unit-Tests sind zu streng und lehnen möglicherweise korrekte Lösungen ab. Außerdem ist es schwierig, die Entwicklungsumgebung zuverlässig einzurichten.

Um diese Probleme anzugehen, führt SWE-bench Verified ein neues Bewertungstoolkit für containerisierte Docker-Umgebungen ein, das den Bewertungsprozess konsistenter und zuverlässiger macht. Diese Verbesserung verbesserte die Leistungswerte von KI-Modellen erheblich. Beispielsweise löste GPT-4o 33,2 % der Beispiele unter dem neuen Benchmark, während sich die Punktzahl von Agentless, dem leistungsstärksten Open-Source-Agent-Framework, ebenfalls auf 16 % verdoppelte.

Diese Leistungsverbesserung zeigt, dass SWE-bench Verified die wahren Fähigkeiten von KI-Modellen bei Softwareentwicklungsaufgaben besser erfassen kann. Durch die Lösung der Einschränkungen des ursprünglichen Benchmarks bietet OpenAI ein genaueres Bewertungstool für die Anwendung von KI im Bereich der Softwareentwicklung, von dem erwartet wird, dass es die weitere Entwicklung und Anwendung verwandter Technologien fördert.

Da KI-Technologie zunehmend in der Softwareentwicklung eingesetzt wird, werden Bewertungsbenchmarks wie SWE-bench Verified eine wichtige Rolle bei der Messung und Förderung der Verbesserung der Fähigkeiten von KI-Modellen spielen.

Adresse: https://openai.com/index/introducing-swe-bench-verified/

Die Einführung von SWE-bench Verified markiert den Fortschritt der KI-Modellbewertung auf ein genaueres und zuverlässigeres Niveau und wird dazu beitragen, die Innovation und Entwicklung von KI im Bereich der Softwareentwicklung voranzutreiben. Der Herausgeber von Downcodes glaubt, dass in Zukunft weitere ähnliche Bewertungsbenchmarks erscheinen werden, um den Fortschritt der KI-Technologie weiter voranzutreiben.