Byte Open Sourceの新コードラージモデル評価ベンチマーク「FullStack Bench」
12 月 5 日、Byte Doubao 大規模モデル チームは、最新の大規模コード モデル評価ベンチマークである FullStack Bench を開始しました。このベンチマークは、11 種類以上の実際のシナリオをカバーし、16 のプログラミング言語をサポートし、3374 の質問を含みます。このベンチマークは、以前の評価基準よりも広範囲のプログラミング ドメインにわたる大規模モデルのコード開発をより正確に評価します。
2024-12-18