マグルの大規模言語モデル中国語テスト セット
https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX
ChatGPT のリリース以来、私たちはそれを使用するときに「ああ、本当にこれに答えられるんだ!」と叫ぶことがよくありますが、同時に、ますます多くの大規模なモデル チームや製品が出現していることを嬉しく思います。
初期の投資家として、新しくリリースされた会話型 AI 製品を試して評価する必要があることがよくあります。最も一般的な方法は、いくつかのプロンプトを通じてそれらを象徴的な ChatGPT の出力結果と直感的に比較することです。その過程で、大規模な言語モデルでは現在うまく処理できないいくつかの問題や、多くの興味深いプロンプトを徐々に記録していきました。
では、テストにはどのようなプロンプトを使用するのでしょうか? OpenAI は、公式 Web サイトで ChatGPT の 48 の基本機能を実証しており、NLP の分野では、SuperGLUE、MMLU、Google BIG-bench などの広く使用されているテスト セットも備えています。同時に、パラメータやデータ規模の増加に伴い大規模なモデルで新しい機能が登場することを考えると、これらの新しい機能に関連するテスト セットも増加しています。
しかし、実践を通じて、現在の NLP タスク テスト セットには次の問題があることがわかりました。
そこで、会話型AIのヘビーユーザーである私たちVCマグルは、自らのニーズに基づいて、大規模モデルの会話型製品(ChatGPT類似製品)を非技術者向けに定性テストするためのツール「Z-Bench」をまとめ、立ち上げました。お試しセット。
「Z-Bench v1.0」は、基本機能、高度な機能、垂直機能の 3 つの観点から合計 300 のプロンプトを提供します。私たちの出発点は、できるだけ多くの種類の NLP タスクをカバーすることです。私たちの目標は、学術的に厳密で完全なテスト セットを提供することではなく、既存の学術テスト セット、毎日収集されるいくつかの興味深い事例、および大規模なモデルの出現後に学術コミュニティによって発見された創発性とひらめき機能を組み合わせて、大規模なモデルを提供することです。非技術専門家による使用に適したモデル技能テスト セット。ただし、どうしても抜けているシーンや、プロの視点から見た素人的な内容も多くなりますが、今後も集めたご意見をもとに補足・改善を加え、タイムリーに公開してまいります。
© 2023 ZhenFund