z bench下載 - z bench原始碼下載

z bench

Ai源碼

1.0.0

下載

Z-Bench 1.0 by 真格基金

一個麻瓜的大語言模型中文測驗集

數據集

騰訊文檔版

https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX

CSV 版本

基礎能力: common.samples.csv
進階能力: emergent.samples.csv
垂直能力: specialized.samples.csv

簡介

自從ChatGPT 發布以來，我們經常在使用它時發出驚嘆：「啊，這個居然它也能回答出來！」同時，我們也欣喜地看到，越來越多的大模型團隊和產品如雨後春筍般出現。

作為早期投資人，我們經常需要試用和評估新發布的對話式AI 產品，其中比較常用的方式是透過一些Prompts，將它們與標誌性的ChatGPT 的輸出結果進行直觀的橫向對比。在這個過程中，我們逐漸記錄了一些大語言模型現在還無法處理得很好的問題，以及很多有趣的Prompts。

那麼，我們在用哪些Prompts 來測試呢？ OpenAI 已經在官網展示了ChatGPT 的48 個基本能力，在NLP 領域，也已經有了SuperGLUE、MMLU、Google BIG-bench 等被廣泛使用的測試集。同時，鑑於隨著參數和資料規模增大，大模型會湧現新能力，與這些新能力相關的測試集也不斷增加。

但是，透過實踐，我們發現目前的NLP 任務測試集有以下問題：

有些任務不一定適合對話式系統，也有些任務不一定有好的中文版本；
隨著這些測試集成為行業標準，可能會出現定向優化和過度擬合的情況；
這些測試集往往需要部署自動化測試，也不適合非專業人員進行日常問答使用。

因此，我們幾個VC 麻瓜，作為對話式AI 的重度用戶，從自身需求出發，總結推出了“Z-Bench”—— 一個為非技術人員定性測試大模型對話式產品（類ChatGPT 產品）準備的測試集。

「Z-Bench v1.0」從基礎能力、進階能力、垂直能力3 個角度出發，共提供了300 個Prompts，我們的出發點是盡量覆蓋更多類型的NLP 任務。我們的目標並不是提供一個學術上非常嚴謹完整的測試集，而是希望透過結合學術上已有的測試集、日常蒐集的一些有意思的案例，以及大模型出現之後學術界發現的湧現和頓悟能力，提供一個適合非技術專業人士使用的大模型能力測試集。但是，我們難免會漏掉一些場景，或是出現很多專業角度看比較業餘的內容，未來，我們會不斷根據蒐集到的反饋去補充完善，並且及時予以公佈。