프로젝트 웹사이트 • 주요 기능 • 사용 방법 • 벤치마크 데이터세트 • 커뮤니티 지원 • 기여 • 사명 • 라이선스
사용자 문서와 예제를 보려면 공식 페이지인 langtest.org를 살펴보세요.
LangTest는 다양한 사용 사례와 평가 시나리오를 포괄하여 모델을 테스트할 수 있는 다양한 데이터 세트와 함께 제공됩니다. 여기에서 사용 가능한 모든 벤치마크 데이터세트를 탐색할 수 있습니다. 각 벤치마크 데이터세트는 언어 모델에 도전하고 향상시키기 위해 세심하게 선별되었습니다. 질문 답변, 텍스트 요약 등에 중점을 두더라도 LangTest는 모델을 한계까지 밀어붙이고 다양한 언어 작업에서 최고의 성능을 달성할 수 있는 올바른 데이터를 확보하도록 보장합니다.
# Install langtest
!p ip install langtest [ transformers ]
# Import and create a Harness object
from langtest import Harness
h = Harness ( task = 'ner' , model = { "model" : 'dslim/bert-base-NER' , "hub" : 'huggingface' })
# Generate test cases, run them and view a report
h . generate (). run (). report ()
참고 사용 및 문서에 대한 더 확장된 예를 보려면 langtest.org를 방문하세요.
다음 LangTest 기사를 확인할 수 있습니다.
블로그 | 설명 |
---|---|
대규모 언어 모델을 통해 생성된 임상 치료 계획의 인구통계적 편향 자동 테스트 | LLM이 생성한 임상 치료 계획에서 인구통계학적 편견을 이해하고 테스트하는 데 도움이 됩니다. |
LangTest: 엔드 투 엔드 NLP 파이프라인을 통한 편향 공개 및 수정 | LangTest의 엔드투엔드 언어 파이프라인은 NLP 실무자가 포괄적이고 데이터 중심적이며 반복적인 접근 방식을 통해 언어 모델의 편견을 해결할 수 있도록 지원합니다. |
정확성을 넘어서: LangTest를 사용한 명명된 엔터티 인식 모델의 견고성 테스트 | 정확성은 의심의 여지 없이 중요하지만 견고성 테스트는 모델이 다양한 실제 조건에서 안정적이고 일관되게 작동할 수 있도록 보장하여 자연어 처리(NLP) 모델 평가를 한 단계 더 발전시킵니다. |
향상된 성능을 위해 자동화된 데이터 증강으로 NLP 모델을 향상시키세요 | 이 기사에서는 자동화된 데이터 증대로 NLP 모델을 강화하고 성능을 향상시키는 방법과 LangTest를 사용하여 이를 수행하는 방법에 대해 설명합니다. |
AI의 성별 직업 고정관념 완화: Langtest 라이브러리를 통해 Wino Bias 테스트로 모델 평가 | 이 기사에서는 LangTest를 사용하여 "Wino Bias"를 테스트하는 방법에 대해 논의합니다. 특히 성별 직업 고정관념에서 발생하는 편견을 테스트하는 것을 말합니다. |
책임감 있는 AI 자동화: 더욱 강력한 모델을 위해 Hugging Face와 LangTest 통합 | 이 기사에서는 최첨단 NLP 모델 및 데이터세트의 소스인 Hugging Face와 테스트 및 최적화를 위한 NLP 파이프라인의 비밀 무기인 LangTest 간의 통합을 살펴보았습니다. |
아첨 편향 감지 및 평가: LLM 및 AI 솔루션 분석 | 이 블로그 게시물에서는 아첨하는 AI 행동의 만연한 문제와 그것이 인공 지능 세계에 제시하는 과제에 대해 논의합니다. 우리는 언어 모델이 때때로 진정성보다 합의를 우선시하여 의미 있고 편견 없는 대화를 방해하는 방법을 탐구합니다. 또한 우리는 이 문제에 대한 잠재적인 판도를 바꿀 수 있는 솔루션인 합성 데이터를 공개합니다. 이는 AI 동료가 토론에 참여하는 방식에 혁명을 일으키고 다양한 실제 조건에서 AI 동료를 더욱 신뢰할 수 있고 정확하게 만들 수 있습니다. |
부정 및 독성 평가에서 언마스킹 언어 모델 민감도 | 이 블로그 게시물에서는 모델이 언어의 부정 및 독성을 처리하는 방법을 검토하면서 언어 모델 민감도를 조사합니다. 이러한 테스트를 통해 우리는 모델의 적응성과 반응성에 대한 통찰력을 얻고 NLP 모델의 지속적인 개선이 필요하다는 점을 강조합니다. |
언어 모델의 편견 공개: 성별, 인종, 장애 및 사회경제적 관점 | 이 블로그 게시물에서는 성별, 인종, 장애 및 사회경제적 요인에 초점을 맞춰 언어 모델의 편견을 살펴봅니다. 우리는 고정관념적 편향을 측정하도록 설계된 CrowS-Pairs 데이터세트를 사용하여 이러한 편향을 평가합니다. 이러한 편견을 해결하기 위해 NLP 시스템의 공정성을 촉진하는 데 있어 LangTest와 같은 도구의 중요성에 대해 논의합니다. |
AI 내 편견 밝히기: 성별, 민족성, 종교 및 경제가 NLP와 그 이상을 형성하는 방법 | 이 블로그 게시물에서는 성별, 민족성, 종교 및 경제가 NLP 시스템을 형성하는 방식에 대한 AI 편견을 다룹니다. 우리는 AI 시스템의 편견을 줄이고 공정성을 촉진하기 위한 전략에 대해 논의했습니다. |
Wino 편향 테스트를 사용하여 성별 직업 고정관념에 대한 대규모 언어 모델 평가 | 이 블로그 게시물에서는 LLM에 대한 WinoBias 데이터 세트 테스트, 언어 모델의 성별 및 직업 역할 처리, 평가 지표 및 더 넓은 의미를 조사합니다. WinoBias 데이터 세트에서 LangTest를 사용하여 언어 모델을 평가하는 방법을 살펴보고 AI의 편견을 해결하는 과제에 직면해 보겠습니다. |
ML 워크플로 간소화: 향상된 모델 평가를 위해 LangTest와 MLFlow 추적 통합 | 이 블로그 게시물에서는 투명하고 체계적이며 포괄적인 모델 추적에 대한 필요성이 커지고 있는 상황에 대해 자세히 알아봅니다. MLFlow와 LangTest를 만나보세요. 두 가지 도구를 결합하면 ML 개발에 대한 혁신적인 접근 방식을 만들어낼 수 있습니다. |
대규모 언어 모델의 질문 응답 기능 테스트 | 이 블로그 게시물에서는 LangTest 라이브러리를 사용하여 QA 평가 기능을 향상시키는 방법에 대해 알아봅니다. QA(질문 응답) 작업 평가의 복잡성을 해결하기 위해 LangTest가 제공하는 다양한 평가 방법에 대해 알아보세요. |
LangTest를 사용하여 고정관념 편향 평가 | 이 블로그 게시물에서는 StereoSet 데이터세트를 사용하여 성별, 직업, 인종과 관련된 편견을 평가하는 데 중점을 두고 있습니다. |
LSTM 기반 감정 분석 모델의 견고성 테스트 | LangTest Insights를 통해 맞춤형 모델의 견고성을 살펴보세요. |
LangTest Insights: OpenBookQA의 LLM 견고성에 대한 심층 분석 | LangTest Insights를 사용하여 OpenBookQA 데이터세트에서 언어 모델(LLM)의 견고성을 살펴보세요. |
LangTest: Transformers 언어 모델의 견고성을 향상시키기 위한 비밀 무기 | LangTest Insights를 통해 Transformers 언어 모델의 견고성을 살펴보세요. |
마스터링 모델 평가: LangTest의 종합 순위 및 순위표 시스템 소개 | John Snow Labs의 LangTest의 모델 순위 및 리더보드 시스템은 포괄적인 순위, 기록 비교 및 데이터 세트별 통찰력을 통해 AI 모델을 평가하는 체계적인 접근 방식을 제공하여 연구원과 데이터 과학자가 모델 성능에 대해 데이터 기반 결정을 내릴 수 있도록 지원합니다. |
Prometheus-Eval 및 Langtest를 사용하여 긴 형식 응답 평가 | Prometheus-Eval과 LangTest는 Prometheus의 GPT-4 수준 성능과 LangTest의 강력한 테스트 프레임워크를 결합하여 긴 형식의 응답을 평가하기 위한 신뢰할 수 있고 비용 효과적인 오픈 소스 솔루션을 제공하기 위해 통합되어 상세하고 해석 가능한 피드백과 높은 정확성을 제공합니다. 평가. |
의료 분야에서 LLM의 정확성 보장: 약물 이름 교환의 과제 | 정확한 약물명 식별은 환자 안전을 위해 매우 중요합니다. LangTest의 drug_generic_to_brand 변환 테스트를 통해 GPT-4o를 테스트하면 브랜드 이름이 성분으로 대체될 때 약물 이름을 예측할 때 발생할 수 있는 오류가 드러났으며, 이는 의료 LLM의 정확성과 신뢰성을 보장하기 위해 지속적인 개선과 엄격한 테스트의 필요성을 강조했습니다. |
참고 모든 블로그를 확인하려면 블로그로 이동하세요.
#langtest
채널에 가입하세요.안전하고 강력하며 공정한 AI 모델을 훈련해야 할 필요성에 대해 많은 이야기가 있지만, 이러한 목표를 달성하기 위해 데이터 과학자가 사용할 수 있는 도구는 거의 없습니다. 결과적으로 생산 시스템에서 NLP 모델의 최전선은 안타까운 상황을 반영합니다.
우리는 여기서 이러한 격차를 메우는 것을 목표로 하는 초기 단계의 오픈 소스 커뮤니티 프로젝트를 제안하며, 여러분이 이 임무에 우리와 함께 하시길 바랍니다. 우리는 Ribeiro et al.과 같은 이전 연구에 의해 구축된 기반을 구축하는 것을 목표로 합니다. (2020), 송 외. (2020), Parrish et al. (2021), van Aken et al. (2021) 외 다수.
John Snow Labs는 프로젝트에 할당된 전체 개발 팀을 보유하고 있으며 다른 오픈 소스 라이브러리와 마찬가지로 수년 동안 라이브러리를 개선하는 데 최선을 다하고 있습니다. 새로운 테스트 유형, 작업, 언어 및 플랫폼이 정기적으로 추가되는 빈번한 릴리스를 기대하세요. 우리는 안전하고 신뢰할 수 있으며 책임감 있는 NLP를 일상의 현실로 만들기 위해 함께 노력하기를 기대합니다.
참고 사용법 및 문서를 보려면 langtest.org를 방문하세요.
우리는 모든 종류의 기여를 환영합니다:
기여에 대한 자세한 개요는 기여 가이드 에서 확인할 수 있습니다.
LangTest 코드베이스 작업을 시작하려는 경우 GitHub "문제" 탭으로 이동하여 흥미로운 문제를 살펴보세요. 시작할 수 있는 문제는 여러 가지가 있습니다. 아니면 LangTest를 사용하여 자신만의 아이디어를 얻었거나 문서에서 무언가를 찾고 '이것은 개선될 수 있다'고 생각하고 있을 수도 있습니다. 뭔가를 할 수 있습니다!
Q&A 토론을 통해 자유롭게 질문해주세요.
이 프로젝트의 기여자 및 유지관리자로서 귀하는 LangTest의 행동 강령을 준수해야 합니다. 자세한 내용은 기여자 행동 강령에서 확인할 수 있습니다.
우리는 LangTest 라이브러리에 대해 인용할 수 있는 논문을 출판했습니다.
@article { nazir2024langtest ,
title = { LangTest: A comprehensive evaluation library for custom LLM and NLP models } ,
author = { Arshaan Nazir, Thadaka Kalyan Chakravarthy, David Amore Cecchini, Rakshit Khajuria, Prikshit Sharma, Ali Tarik Mirik, Veysel Kocaman and David Talby } ,
journal = { Software Impacts } ,
pages = { 100619 } ,
year = { 2024 } ,
publisher = { Elsevier }
}
우리는 이 오픈 소스 커뮤니티 프로젝트의 모든 기여자에게 감사를 표하고 싶습니다.
LangTest는 상업적 사용, 수정, 배포, 특허 사용, 개인 사용을 보장하고 상표 사용, 책임 및 보증에 대한 제한을 설정하는 Apache 라이센스 2.0에 따라 출시됩니다.