Download z bench - download do código-fonte z bench

z bench

Código-Fonte de IA

1.0.0

Baixar

Z-Bench 1.0 por ZhenFund

Um conjunto de testes chinês de modelo de língua grande trouxa

Conjunto de dados

Versão do documento Tencent

https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX

Versão CSV

Capacidades básicas : common.samples.csv
Capacidades avançadas : emergent.samples.csv
Capacidades verticais : special.samples.csv

Introdução

Desde o lançamento do ChatGPT, muitas vezes exclamamos ao usá-lo: “Ah, ele pode realmente responder a isso!” Ao mesmo tempo, também estamos satisfeitos em ver que cada vez mais equipes e produtos de modelos grandes surgiram.

Como investidores iniciais, muitas vezes precisamos testar e avaliar produtos de IA conversacional recém-lançados. A maneira mais comum é compará-los intuitivamente com os resultados do icônico ChatGPT por meio de alguns prompts. No processo, registramos gradualmente alguns problemas que os grandes modelos de linguagem atualmente não conseguem resolver bem, bem como muitos prompts interessantes.

Então, quais prompts estamos usando para testes? OpenAI demonstrou 48 recursos básicos do ChatGPT em seu site oficial. Na área de PNL, também possui conjuntos de testes amplamente utilizados, como SuperGLUE, MMLU e Google BIG-bench. Ao mesmo tempo, dado que novas capacidades surgirão em grandes modelos à medida que os parâmetros e a escala de dados aumentam, os conjuntos de testes relacionados com estas novas capacidades também estão a aumentar.

No entanto, através da prática, descobrimos que o conjunto atual de testes de tarefas da PNL tem os seguintes problemas:

Algumas tarefas podem não ser adequadas para sistemas conversacionais e algumas tarefas podem não ter necessariamente uma boa versão em chinês;
À medida que esses conjuntos de testes se tornam padrões do setor, podem ocorrer otimização direcionada e overfitting;
Esses conjuntos de testes geralmente exigem a implantação de testes automatizados e não são adequados para uso por não profissionais em perguntas e respostas diárias.

Portanto, vários de nós, VC Muggles, como grandes usuários de IA conversacional, com base em nossas próprias necessidades, resumimos e lançamos o "Z-Bench" - uma ferramenta para pessoal não técnico testar qualitativamente produtos conversacionais de grande modelo (produtos semelhantes a ChatGPT ).

"Z-Bench v1.0" fornece um total de 300 prompts de três perspectivas: recursos básicos, recursos avançados e recursos verticais. Nosso ponto de partida é cobrir tantos tipos de tarefas de PNL quanto possível. Nosso objetivo não é fornecer um conjunto de testes academicamente rigoroso e completo, mas combinar conjuntos de testes acadêmicos existentes, alguns casos interessantes coletados diariamente e as capacidades de emergência e epifania descobertas pela comunidade acadêmica após o surgimento de grandes modelos. conjunto de teste de proficiência de modelo adequado para uso por profissionais não técnicos. No entanto, inevitavelmente perderemos algumas cenas ou haverá muito conteúdo amador do ponto de vista profissional. No futuro, continuaremos a complementá-lo e melhorá-lo com base no feedback que coletamos e a publicá-lo em tempo hábil.