一個麻瓜的大語言模型中文測驗集
https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX
自從ChatGPT 發布以來,我們經常在使用它時發出驚嘆:「啊,這個居然它也能回答出來!」同時,我們也欣喜地看到,越來越多的大模型團隊和產品如雨後春筍般出現。
作為早期投資人,我們經常需要試用和評估新發布的對話式AI 產品,其中比較常用的方式是透過一些Prompts,將它們與標誌性的ChatGPT 的輸出結果進行直觀的橫向對比。在這個過程中,我們逐漸記錄了一些大語言模型現在還無法處理得很好的問題,以及很多有趣的Prompts。
那麼,我們在用哪些Prompts 來測試呢? OpenAI 已經在官網展示了ChatGPT 的48 個基本能力,在NLP 領域,也已經有了SuperGLUE、MMLU、Google BIG-bench 等被廣泛使用的測試集。同時,鑑於隨著參數和資料規模增大,大模型會湧現新能力,與這些新能力相關的測試集也不斷增加。
但是,透過實踐,我們發現目前的NLP 任務測試集有以下問題:
因此,我們幾個VC 麻瓜,作為對話式AI 的重度用戶,從自身需求出發,總結推出了“Z-Bench”—— 一個為非技術人員定性測試大模型對話式產品(類ChatGPT 產品)準備的測試集。
「Z-Bench v1.0」從基礎能力、進階能力、垂直能力3 個角度出發,共提供了300 個Prompts,我們的出發點是盡量覆蓋更多類型的NLP 任務。我們的目標並不是提供一個學術上非常嚴謹完整的測試集,而是希望透過結合學術上已有的測試集、日常蒐集的一些有意思的案例,以及大模型出現之後學術界發現的湧現和頓悟能力,提供一個適合非技術專業人士使用的大模型能力測試集。但是,我們難免會漏掉一些場景,或是出現很多專業角度看比較業餘的內容,未來,我們會不斷根據蒐集到的反饋去補充完善,並且及時予以公佈。
© 2023 ZhenFund