Un grand modèle de langage moldu pour tester le chinois
https://docs.qq.com/sheet/DTEFsdkNERVVtR3BX
Depuis la sortie de ChatGPT, on s'exclame souvent en l'utilisant : "Ah, ça peut effectivement répondre à ça !"
En tant qu'investisseurs précoces, nous devons souvent essayer et évaluer les nouveaux produits d'IA conversationnelle. Le moyen le plus courant consiste à les comparer intuitivement avec les résultats de l'emblématique ChatGPT via certaines invites. Au cours du processus, nous avons progressivement enregistré certains problèmes que les grands modèles de langage ne peuvent actuellement pas bien gérer, ainsi que de nombreuses invites intéressantes.
Alors, quelles invites utilisons-nous pour les tests ? OpenAI a démontré 48 capacités de base de ChatGPT sur son site officiel. Dans le domaine du NLP, il dispose également d'ensembles de tests largement utilisés tels que SuperGLUE, MMLU et Google BIG-bench. Dans le même temps, étant donné que de nouvelles capacités apparaîtront dans les grands modèles à mesure que les paramètres et l’échelle des données augmentent, les ensembles de tests liés à ces nouvelles capacités augmentent également.
Cependant, grâce à la pratique, nous avons constaté que l'ensemble actuel de tests de tâches PNL présente les problèmes suivants :
Par conséquent, plusieurs d'entre nous, VC Moldus, en tant que grands utilisateurs de l'IA conversationnelle, en fonction de nos propres besoins, avons résumé et lancé "Z-Bench" - un outil destiné au personnel non technique pour tester qualitativement des produits conversationnels à grande échelle (produits de type ChatGPT). ). ensemble de tests.
"Z-Bench v1.0" fournit un total de 300 invites sous trois angles : capacités de base, capacités avancées et capacités verticales. Notre point de départ est de couvrir autant de types de tâches PNL que possible. Notre objectif n'est pas de fournir un ensemble de tests académiquement rigoureux et complet, mais de combiner les ensembles de tests académiques existants, quelques cas intéressants collectés quotidiennement et les capacités d'émergence et d'épiphanie découvertes par la communauté universitaire après l'émergence de grands modèles. modèle de test de compétence adapté à une utilisation par des professionnels non techniques. Cependant, nous manquerons inévitablement certaines scènes, ou il y aura beaucoup de contenu amateur d'un point de vue professionnel, nous continuerons à le compléter et à l'améliorer en fonction des commentaires que nous collectons, et à le publier en temps opportun.
© 2023 ZhenFund