Un conjunto de prueba de chino modelo de lenguaje grande muggle
https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX
Desde el lanzamiento de ChatGPT, a menudo exclamamos al usarlo: "¡Ah, realmente puede responder a esto!". Al mismo tiempo, también nos complace ver que han surgido más y más equipos y productos modelo.
Como primeros inversores, a menudo necesitamos probar y evaluar productos de inteligencia artificial conversacional recientemente lanzados. La forma más común es compararlos intuitivamente con los resultados del icónico ChatGPT a través de algunas indicaciones. En el proceso, registramos gradualmente algunos problemas que los modelos de lenguaje grandes actualmente no pueden manejar bien, así como muchas indicaciones interesantes.
Entonces, ¿qué indicaciones utilizamos para las pruebas? OpenAI ha demostrado 48 capacidades básicas de ChatGPT en su sitio web oficial. En el campo de PNL, también cuenta con conjuntos de pruebas ampliamente utilizados como SuperGLUE, MMLU y Google BIG-bench. Al mismo tiempo, dado que surgirán nuevas capacidades en modelos grandes a medida que aumenten los parámetros y la escala de datos, los conjuntos de pruebas relacionados con estas nuevas capacidades también están aumentando.
Sin embargo, a través de la práctica, descubrimos que el conjunto de pruebas de tareas de PNL actual tiene los siguientes problemas:
Por lo tanto, varios de nosotros, VC Muggles, como grandes usuarios de IA conversacional, según nuestras propias necesidades, resumimos y lanzamos "Z-Bench", una herramienta para que personal no técnico pruebe cualitativamente productos conversacionales de modelos grandes (productos similares a ChatGPT). ).
"Z-Bench v1.0" proporciona un total de 300 indicaciones desde tres perspectivas: capacidades básicas, capacidades avanzadas y capacidades verticales. Nuestro punto de partida es cubrir tantos tipos de tareas de PNL como sea posible. Nuestro objetivo no es proporcionar un conjunto de pruebas académicamente riguroso y completo, sino combinar conjuntos de pruebas académicas existentes, algunos casos interesantes recopilados diariamente y las capacidades de aparición y epifanía descubiertas por la comunidad académica después de la aparición de grandes modelos. Conjunto de prueba de competencia modelo adecuado para uso por profesionales no técnicos. Sin embargo, inevitablemente nos perderemos algunas escenas o habrá mucho contenido amateur desde una perspectiva profesional. En el futuro, continuaremos complementándolo y mejorándolo en función de los comentarios que recopilemos y lo publicaremos de manera oportuna.
© 2023 FondoZhen