Downcodes の編集者は、ソフトウェア エンジニアリングの分野で AI モデルのパフォーマンスをより正確に評価することを目的として、OpenAI が 8 月 13 日に SWE ベンチ検証済みコード生成評価ベンチマークをリリースしたことを知りました。この動きは、元の SWE ベンチ ベンチマークの欠点を改善し、評価の信頼性と精度を向上させ、ソフトウェア開発における AI モデルの適用のためのより効果的な評価ツールを提供することを目的としています。新しいベンチマークでは、コンテナ化された Docker 環境が導入されており、厳しすぎる単体テスト、不明瞭な問題の説明、開発環境のセットアップの難しさなど、元のベンチマークの問題が解決されています。
OpenAIは8月13日、ソフトウェアエンジニアリングタスクにおける人工知能モデルのパフォーマンスをより正確に評価することを目的とした、SWEベンチ検証済みコード生成評価ベンチマークの開始を発表した。この新しいベンチマークは、以前の SWE ベンチの多くの制限を解決します。
SWE ベンチは、GitHub 上の実際のソフトウェアの問題に基づいた評価データセットで、12 の人気のある Python リポジトリからの 2,294 の問題とプル リクエストのペアが含まれています。ただし、元の SWE ベンチには 3 つの主な問題があります。単体テストが厳密すぎて、正しい解決策が拒否される可能性があること、問題の説明が十分に明確でないこと、および開発環境を確実にセットアップすることが難しいことです。
これらの問題に対処するために、SWE-bench Verified では、コンテナ化された Docker 環境用の新しい評価ツールキットを導入し、評価プロセスの一貫性と信頼性を高めています。この改善により、AI モデルのパフォーマンス スコアが大幅に向上しました。たとえば、GPT-4o は新しいベンチマークでサンプルの 33.2% を解決しましたが、最もパフォーマンスの高いオープンソース エージェント フレームワークである Agentless のスコアも 2 倍の 16% になりました。
このパフォーマンスの向上は、SWE-bench Verified がソフトウェア エンジニアリング タスクにおける AI モデルの真の機能をより適切に捕捉できることを示しています。 OpenAIは、独自のベンチマークの限界を解決することで、ソフトウェア開発分野におけるAI適用のより正確な評価ツールを提供し、関連技術のさらなる開発・応用の促進が期待されます。
ソフトウェア エンジニアリングにおける AI テクノロジーの使用が増加するにつれ、SWE ベンチ検証のような評価ベンチマークは、AI モデルの機能の改善を測定および促進する上で重要な役割を果たすことになります。
アドレス:https://openai.com/index/introducing-swe-bench-verified/
SWE-bench Verified の開始は、AI モデル評価がより正確で信頼性の高い段階に進歩したことを示し、ソフトウェア エンジニアリングの分野における AI の革新と開発の促進に役立ちます。 Downcodes の編集者は、AI 技術の進歩をさらに促進するために、将来的には同様の評価ベンチマークがさらに登場すると考えています。