TestingGemma2B
1.0.0
该存储库记录了对 Google 最新开源大型语言模型、Instruction Tuned Gemma-2B IT 的评估。测试框架涵盖各个领域的广泛问题,旨在对模型的性能能力及其对道德护栏的遵守情况进行基准测试。
该项目的目标是测试模型在不同领域的广泛问题上的性能,包括逻辑推理、数学和统计、技术知识、自然语言理解等,以评估其能力和局限性。此外,我还花了几分钟来整理问题,评估该模型对道德准则的遵守情况及其避免生成有偏见或有害内容的能力。接下来将测试 RAG 功能。
评估涵盖以下类别:
选择这些类别是为了全面概述模型的知识和推理能力及其道德保障。
使用以下输出生成配置进行测试:
output = text_generation_pipeline (
prompt ,
max_new_tokens = 256 ,
add_special_tokens = True ,
do_sample = True ,
temperature = 1 ,
top_k = 50 ,
top_p = 0.95
)
选择这种配置是为了在生成连贯、相关的响应和允许创造性、多样化的输出之间取得平衡。它控制响应的长度、特殊标记的包含、采样行为以及输出的随机性。
调查结果显示不同类别的结果好坏参半。虽然该模型在某些领域表现良好,但在其他领域却难以完成基本任务,例如简单的算术运算。这些结果突出了该模型的优势领域和需要改进的领域。
要复制这些测试,请不要忘记在提供的 Colab 笔记本中设置您自己的 Hugging Face API 密钥。我鼓励用户根据他们感兴趣的特定领域调整测试。然而,重要的是要记住,这些结果不应被视为所有用例的明确基准,特别是因为性能可能会因硬件配置而异。我的测试是在 NVIDIA A100 GPU 上进行的。
欢迎社区贡献。无论是使用更多特定领域的问题扩展测试套件、改进测试框架,还是分享您的评估结果,您的输入都可以帮助增强整个社区对该模型的理解和利用。
该项目是开源的,可根据 MIT 许可证使用。