z bench 다운로드 - z bench 소스 코드 다운로드

z bench

AI 소스 코드

1.0.0

다운로드

ZhenFund의 Z-Bench 1.0

머글 대형 언어 모델 중국어 테스트 세트

데이터 세트

Tencent 문서 버전

https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX

CSV 버전

기본 기능 : common.samples.csv
고급 기능 : Emergency.samples.csv
수직적 기능 : Specialized.samples.csv

소개

ChatGPT가 출시된 이후로 우리는 그것을 사용할 때 종종 "아, 정말 이게 답이구나!"라고 감탄했습니다. 동시에 점점 더 많은 대규모 모델 팀과 제품이 생겨나는 것을 보고 기쁘게 생각합니다.

초기 투자자로서 우리는 새로 출시된 대화형 AI 제품을 시험해보고 평가해야 하는 경우가 많습니다. 가장 일반적인 방법은 몇 가지 프롬프트를 통해 이를 상징적인 ChatGPT의 출력 결과와 직관적으로 비교하는 것입니다. 그 과정에서 우리는 현재 대규모 언어 모델이 잘 처리할 수 없는 몇 가지 문제와 많은 흥미로운 프롬프트를 점차적으로 기록했습니다.

그렇다면 테스트를 위해 어떤 프롬프트를 사용하고 있습니까? OpenAI는 공식 홈페이지에서 ChatGPT의 48가지 기본 기능을 시연했으며, NLP 분야에서도 SuperGLUE, MMLU, Google BIG-bench 등의 테스트 세트를 널리 사용했습니다. 동시에 매개변수와 데이터 규모가 증가함에 따라 대형 모델에서 새로운 기능이 등장할 것이라는 점을 고려하면 이러한 새로운 기능과 관련된 테스트 세트도 증가하고 있습니다.

그러나 실습을 통해 현재 NLP 작업 테스트 세트에는 다음과 같은 문제가 있음을 발견했습니다.

일부 작업은 대화 시스템에 적합하지 않을 수 있으며 일부 작업에는 반드시 좋은 중국어 버전이 없을 수도 있습니다.
이러한 테스트 스위트가 업계 표준이 되면서 직접적인 최적화와 과적합이 발생할 수 있습니다.
이러한 테스트 세트에는 자동화된 테스트 배포가 필요한 경우가 많으며 비전문가가 일상적인 Q&A에 사용하기에는 적합하지 않습니다.

따라서 대화형 AI를 많이 사용하는 우리 VC 머글 중 몇몇은 우리 자신의 필요에 따라 비기술 인력이 대형 모델 대화형 제품(ChatGPT와 유사한 제품)을 정성적으로 테스트할 수 있는 도구인 "Z-Bench"를 요약하고 출시했습니다. ). 테스트 세트.

"Z-Bench v1.0"은 기본 기능, 고급 기능, 수직 기능의 세 가지 관점에서 총 300개의 프롬프트를 제공합니다. 우리의 출발점은 가능한 많은 유형의 NLP 작업을 다루는 것입니다. 우리의 목표는 학문적으로 엄격하고 완전한 테스트 세트를 제공하는 것이 아니라 기존 학술 테스트 세트, 매일 수집되는 흥미로운 사례, 대형 모델 출현 후 학계에서 발견한 출현 및 깨달음 기능을 결합하여 대규모 모델을 제공하는 것입니다. 비기술 전문가가 사용하기에 적합한 모델 숙련도 테스트 세트입니다. 다만, 불가피하게 일부 장면이 누락되거나, 전문적인 관점에서 아마추어적인 내용이 많을 수 있으니, 앞으로도 수집된 피드백을 바탕으로 지속적으로 보완, 개선하여 적시에 공개하도록 하겠습니다.