Um conjunto de testes chinês de modelo de língua grande trouxa
https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX
Desde o lançamento do ChatGPT, muitas vezes exclamamos ao usá-lo: “Ah, ele pode realmente responder a isso!” Ao mesmo tempo, também estamos satisfeitos em ver que cada vez mais equipes e produtos de modelos grandes surgiram.
Como investidores iniciais, muitas vezes precisamos testar e avaliar produtos de IA conversacional recém-lançados. A maneira mais comum é compará-los intuitivamente com os resultados do icônico ChatGPT por meio de alguns prompts. No processo, registramos gradualmente alguns problemas que os grandes modelos de linguagem atualmente não conseguem resolver bem, bem como muitos prompts interessantes.
Então, quais prompts estamos usando para testes? OpenAI demonstrou 48 recursos básicos do ChatGPT em seu site oficial. Na área de PNL, também possui conjuntos de testes amplamente utilizados, como SuperGLUE, MMLU e Google BIG-bench. Ao mesmo tempo, dado que novas capacidades surgirão em grandes modelos à medida que os parâmetros e a escala de dados aumentam, os conjuntos de testes relacionados com estas novas capacidades também estão a aumentar.
No entanto, através da prática, descobrimos que o conjunto atual de testes de tarefas da PNL tem os seguintes problemas:
Portanto, vários de nós, VC Muggles, como grandes usuários de IA conversacional, com base em nossas próprias necessidades, resumimos e lançamos o "Z-Bench" - uma ferramenta para pessoal não técnico testar qualitativamente produtos conversacionais de grande modelo (produtos semelhantes a ChatGPT ).
"Z-Bench v1.0" fornece um total de 300 prompts de três perspectivas: recursos básicos, recursos avançados e recursos verticais. Nosso ponto de partida é cobrir tantos tipos de tarefas de PNL quanto possível. Nosso objetivo não é fornecer um conjunto de testes academicamente rigoroso e completo, mas combinar conjuntos de testes acadêmicos existentes, alguns casos interessantes coletados diariamente e as capacidades de emergência e epifania descobertas pela comunidade acadêmica após o surgimento de grandes modelos. conjunto de teste de proficiência de modelo adequado para uso por profissionais não técnicos. No entanto, inevitavelmente perderemos algumas cenas ou haverá muito conteúdo amador do ponto de vista profissional. No futuro, continuaremos a complementá-lo e melhorá-lo com base no feedback que coletamos e a publicá-lo em tempo hábil.
© 2023 ZhenFund