TestingGemma2B
1.0.0
該儲存庫記錄了 Google 最新開源大型語言模型、Instruction Tuned Gemma-2B IT 的評估。測試框架涵蓋各領域的廣泛問題,旨在對模型的性能能力及其對道德護欄的遵守情況進行基準測試。
該計畫的目標是測試模型在不同領域的廣泛問題上的性能,包括邏輯推理、數學和統計、技術知識、自然語言理解等,以評估其能力和局限性。此外,我還花了幾分鐘來整理問題,評估該模型對道德準則的遵守情況及其避免產生偏見或有害內容的能力。接下來將測試 RAG 功能。
評估涵蓋以下類別:
選擇這些類別是為了全面概述模型的知識和推理能力及其道德保障。
使用以下輸出產生配置進行測試:
output = text_generation_pipeline (
prompt ,
max_new_tokens = 256 ,
add_special_tokens = True ,
do_sample = True ,
temperature = 1 ,
top_k = 50 ,
top_p = 0.95
)
選擇這種配置是為了在產生連貫、相關的響應和允許創造性、多樣化的輸出之間取得平衡。它控制響應的長度、特殊標記的包含、取樣行為以及輸出的隨機性。
調查結果顯示不同類別的結果好壞參半。雖然該模型在某些領域表現良好,但在其他領域卻難以完成基本任務,例如簡單的算術運算。這些結果突顯了該模型的優勢領域和需要改進的領域。
要複製這些測試,請不要忘記在提供的 Colab 筆記本中設定您自己的 Hugging Face API 金鑰。我鼓勵用戶根據他們感興趣的特定領域調整測試。然而,重要的是要記住,這些結果不應被視為所有用例的明確基準,特別是因為效能可能會因硬體配置而異。我的測試是在 NVIDIA A100 GPU 上進行的。
歡迎社區貢獻。無論是使用更多特定領域的問題擴展測試套件、改進測試框架,還是分享您的評估結果,您的輸入都可以幫助增強整個社區對該模型的理解和利用。
該專案是開源的,可根據 MIT 許可證使用。