이 저장소는 OpenAI의 GPT 시리즈와 같은 LLM(대형 언어 모델) 테스트에 대한 포괄적인 가이드를 제공하는 데 전념하고 있습니다. 다양한 응용 프로그램에서 LLM이 신뢰할 수 있고 안전하며 편견이 없고 효율적인지 확인하기 위해 설계된 다양한 테스트 방법론을 다룹니다. 각 유형의 테스트는 실제 시나리오에서 효과적이고 윤리적으로 작동하는 LLM을 개발하는 데 중요합니다.
이 가이드에는 다음과 같은 테스트 범주가 포함되어 있으며 각 범주는 해당 디렉터리에 포함되어 있습니다.
적대적 테스트 : 견고성을 보장하기 위해 까다롭거나 오해의 소지가 있는 입력으로 모델에 도전하는 기술입니다.
동작 테스트 : 모델이 다양한 시나리오에서 예상대로 동작하는지 확인합니다.
규정 준수 테스트 : 법적 및 윤리적 표준을 준수하는지 확인합니다.
Factual Correctness Testing : 모델이 제공하는 정보의 정확성을 검증합니다.
공정성 및 편향 테스트 : 인구통계학적 편향이 없는지 확인하기 위해 출력을 평가합니다.
통합 테스트 : LLM이 다른 소프트웨어 시스템과 얼마나 잘 통합되는지 평가합니다.
해석 가능성 및 설명 가능성 테스트 : 결정을 설명하는 모델의 능력을 테스트합니다.
성능 테스트 : 다양한 부하 하에서 모델의 효율성과 확장성을 측정합니다.
회귀 테스트 : 새로운 업데이트가 기존 기능을 방해하지 않는지 확인합니다.
안전 및 보안 테스트 : 모델이 유해한 행동을 제안하거나 활성화하지 않는지 확인합니다.
각 디렉토리에는 테스트 수행을 위한 실제 예제와 시나리오를 제공하는 examples.md
와 함께 사용된 특정 테스트 방법을 설명하는 자세한 README.md
포함되어 있습니다.
이 가이드를 사용하려면:
테스트 요구사항에 맞는 테스트 카테고리 디렉토리로 이동하세요 .
해당 카테고리의 테스트 초점에 대한 개요와 자세한 설명을 보려면 README.md
를 읽어보세요 .
특정 테스트 시나리오, 예상 결과 및 테스트 구현에 대한 지침을 보려면 examples.md
를 살펴보세요 .