Tongyi Qianwen 数学モデル Qwen2 Math Demo がリリース、72B バージョンは GPT-4 を上回る

著者：Eve Cole 更新時間：2024-12-22 14:16:01

Alibaba Tongyi Qianwen チームは、驚くべき Qwen2-Math 数学モデルをリリースしました。そのパフォーマンスは、複数のベンチマークテストで GPT-4 を上回り、7B パラメーターバージョンではオープンソースモデル NuminaMath の 72B パラメーターバージョンをも上回りました。このモデルは、テキストで入力された数学の問題を処理できるだけでなく、写真やスクリーンショット内の数式を認識することもできるため、数学学習の強力な補助ツールになります。さまざまなバージョン (72B、7B、および 1.5B) は、さまざまなニーズに対応するオプションを提供し、強力なパフォーマンスと適応性を示します。

Alibaba の Tongyi Qianwen チームがまた大きなニュースを発表しました! 彼らは Qwen2Math デモをリリースしました。この数学モデルはまさに小さな怪物であり、GPT-4 さえも踏みにじられています。

このモデルは、テキスト入力の数学的問題を処理できるだけでなく、画像やスクリーンショットの数式も理解できます。計算の写真を撮ると答えが得られると想像してください。それは単なる数学の授業の問題を解くためのツールです (もちろん、カンニングを推奨しているわけではありません)。

Qwen2-Math は、72B、7B、1.5B の 3 つのバージョンでリリースされています。その中でも、バージョン 72B はまさに数学の天才です。実際、MATH データセットでは GPT-4 よりも 7 ポイント高く、9.6% 増加しました。これは、大学入試の数学のテストで、あなたが 145 点を取ったのに、隣のトップの生徒は 132 点しか取れなかったようなものです。

さらに驚くべきことは、7B バージョンでは使用するパラメータが 10 分の 1 以下であり、72B オープンソース数学モデル NuminaMath を上回っていることです。ご存知のとおり、NuminaMath は世界初の AIMO で賞を受賞したモデルで、その賞は数学界の第一人者であるテレンス・タオ氏が自ら授与したものです。

アリババの上級アルゴリズム専門家、リン・ジュンヤン氏は、Qwen2 モデルを数学的マスターに変えたと興奮気味に発表した。彼らはどのようにしてそれを行ったのでしょうか? 彼らは特別な数学的脳サプリメント、つまり注意深く設計された数学専用のコーパスを使用しました。この脳サプリメントには、高品質の数学オンラインテキスト、書籍、コード、試験問題、さらには Qwen2 モデルによって編集された数学の問題が多数含まれています。

その結果、GSM8K や MATH などの古典的な数学テストセットでは、Qwen2-Math-72B が 405B Llama-3.1 に後れをとりました。これらのテストセットには、代数、幾何学、確率、数論などのさまざまな数学の問題が含まれています。

それだけでなく、Qwen2-Math は中国語のデータセット CMATH や大学入試問題にも挑戦しました。中国のデータセットでは、1.5B バージョンでも 70B の Llama3.1 を上回ることができます。また、どのバージョンであっても、同スケールのQwen2ベーシックモデルと比較して大幅に性能が向上しております。

今回はTongyi Qianwenが本当に数学の天才に尋ねたようです！将来数学の問題を解くときに尋ねてもいいですか？しかし、これは単なるツールであることを覚えておいてください、その知性に騙されないでください、まだ練習する必要がありますあなたの数学のスキル！

オンライン体験アドレス：https://huggingface.co/spaces/Qwen/Qwen2-Math-Demo

Qwen2-Math の登場は、数学分野における大規模言語モデルの大きな進歩を示しています。これは強力なツールですが、自分自身の数学的能力を開発することがより重要であり、ツールに依存したり学習プロセスを無視したりしないでください。私たちは、Qwen2-Math が将来さらに多くの分野で役割を果たし、学習や科学研究にさらなる利便性をもたらすことを期待しています。