Descargar z bench - z bench Descarga del código fuente

z bench

Código Fuente de IA

1.0.0

Descargar

Z-Bench 1.0 de ZhenFund

Un conjunto de prueba de chino modelo de lenguaje grande muggle

conjunto de datos

Versión del documento Tencent

https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX

versión CSV

Capacidades básicas : common.samples.csv
Capacidades avanzadas : emergent.samples.csv
Capacidades verticales : especializados.samples.csv

Introducción

Desde el lanzamiento de ChatGPT, a menudo exclamamos al usarlo: "¡Ah, realmente puede responder a esto!". Al mismo tiempo, también nos complace ver que han surgido más y más equipos y productos modelo.

Como primeros inversores, a menudo necesitamos probar y evaluar productos de inteligencia artificial conversacional recientemente lanzados. La forma más común es compararlos intuitivamente con los resultados del icónico ChatGPT a través de algunas indicaciones. En el proceso, registramos gradualmente algunos problemas que los modelos de lenguaje grandes actualmente no pueden manejar bien, así como muchas indicaciones interesantes.

Entonces, ¿qué indicaciones utilizamos para las pruebas? OpenAI ha demostrado 48 capacidades básicas de ChatGPT en su sitio web oficial. En el campo de PNL, también cuenta con conjuntos de pruebas ampliamente utilizados como SuperGLUE, MMLU y Google BIG-bench. Al mismo tiempo, dado que surgirán nuevas capacidades en modelos grandes a medida que aumenten los parámetros y la escala de datos, los conjuntos de pruebas relacionados con estas nuevas capacidades también están aumentando.

Sin embargo, a través de la práctica, descubrimos que el conjunto de pruebas de tareas de PNL actual tiene los siguientes problemas:

Es posible que algunas tareas no sean adecuadas para sistemas conversacionales y que algunas tareas no necesariamente tengan una buena versión en chino;
A medida que estos conjuntos de pruebas se conviertan en estándares de la industria, es posible que se produzcan optimización dirigida y sobreajuste;
Estos conjuntos de pruebas a menudo requieren la implementación de pruebas automatizadas y no son adecuados para que los utilicen personas no profesionales en las preguntas y respuestas diarias.

Por lo tanto, varios de nosotros, VC Muggles, como grandes usuarios de IA conversacional, según nuestras propias necesidades, resumimos y lanzamos "Z-Bench", una herramienta para que personal no técnico pruebe cualitativamente productos conversacionales de modelos grandes (productos similares a ChatGPT). ).

"Z-Bench v1.0" proporciona un total de 300 indicaciones desde tres perspectivas: capacidades básicas, capacidades avanzadas y capacidades verticales. Nuestro punto de partida es cubrir tantos tipos de tareas de PNL como sea posible. Nuestro objetivo no es proporcionar un conjunto de pruebas académicamente riguroso y completo, sino combinar conjuntos de pruebas académicas existentes, algunos casos interesantes recopilados diariamente y las capacidades de aparición y epifanía descubiertas por la comunidad académica después de la aparición de grandes modelos. Conjunto de prueba de competencia modelo adecuado para uso por profesionales no técnicos. Sin embargo, inevitablemente nos perderemos algunas escenas o habrá mucho contenido amateur desde una perspectiva profesional. En el futuro, continuaremos complementándolo y mejorándolo en función de los comentarios que recopilemos y lo publicaremos de manera oportuna.