이 저장소에는 Google의 최신 오픈 소스 대규모 언어 모델인 Instruction Tuned Gemma-2B IT에 대한 평가가 기록되어 있습니다. 테스트 프레임워크는 모델의 성능 역량과 윤리적 가드레일 준수 여부를 벤치마킹하는 것을 목표로 다양한 영역에 걸쳐 광범위한 질문을 포함합니다.
이 프로젝트의 목적은 논리적 추론, 수학과 통계, 기술 지식, 자연어 이해 등을 포함한 다양한 영역의 광범위한 질문에 대한 모델 성능을 테스트하여 모델의 성능과 한계를 평가하는 것이었습니다. 또한 모델의 윤리 지침 준수 여부와 편향되거나 유해한 콘텐츠 생성을 방지하는 능력을 평가하는 질문을 작성하는 데 몇 분 정도 시간을 보냈습니다. 다음으로는 RAG 기능을 테스트하겠습니다.
평가에는 다음 범주가 포함되었습니다.
이러한 범주는 모델의 지식과 추론 능력은 물론 윤리적 보호 조치에 대한 포괄적인 개요를 제공하기 위해 선택되었습니다.
테스트는 출력 생성을 위해 다음 구성을 사용하여 수행되었습니다.
output = text_generation_pipeline (
prompt ,
max_new_tokens = 256 ,
add_special_tokens = True ,
do_sample = True ,
temperature = 1 ,
top_k = 50 ,
top_p = 0.95
)
이 구성은 일관되고 관련성 있는 응답 생성과 창의적이고 다양한 출력 허용 사이의 균형을 맞추기 위해 선택되었습니다. 응답 길이, 특수 토큰 포함, 샘플링 동작 및 출력의 무작위성을 제어합니다.
조사 결과 다양한 카테고리에 걸쳐 혼합된 결과가 나타났습니다. 모델은 특정 영역에서는 잘 수행되었지만 간단한 산술 연산과 같은 다른 기본 작업에서는 어려움을 겪었습니다. 이러한 결과는 모델이 뛰어난 영역과 개선이 필요한 영역을 강조합니다.
이러한 테스트를 복제하려면 제공된 Colab 노트북에 Hugging Face API 키를 설정하는 것을 잊지 마세요. 나는 사용자들이 자신의 관심 분야에 맞게 테스트를 적용할 것을 권장합니다. 그러나 특히 성능은 하드웨어 구성에 따라 달라질 수 있으므로 이러한 결과를 모든 사용 사례에 대한 최종 벤치마크로 간주해서는 안 된다는 점을 기억하는 것이 중요합니다. 내 테스트는 NVIDIA A100 GPU에서 수행되었습니다.
커뮤니티의 기여를 환영합니다. 더 많은 도메인별 질문으로 테스트 모음을 확장하거나, 테스트 프레임워크를 개선하거나, 평가 결과를 공유하는 등 귀하의 의견은 전체 커뮤니티에서 이 모델에 대한 이해와 활용을 높이는 데 도움이 될 수 있습니다.
이 프로젝트는 오픈 소스이며 MIT 라이선스에 따라 사용할 수 있습니다.