Ce référentiel documente une évaluation du dernier modèle de langage étendu open source de Google, Instruction Tuned Gemma-2B IT. Le cadre de test englobe un large éventail de questions dans divers domaines, visant à évaluer les capacités de performance du modèle et son respect des garde-fous éthiques.
L'objectif de ce projet était de tester les performances du modèle sur un large éventail de questions provenant de différents domaines, notamment le raisonnement logique, les mathématiques et les statistiques, les connaissances techniques, la compréhension du langage naturel, etc., afin d'évaluer ses capacités et ses limites. De plus, j'ai passé quelques minutes à compiler des questions évaluant le respect du modèle aux directives éthiques et sa capacité à éviter de générer du contenu biaisé ou préjudiciable. Nous testerons ensuite les capacités de RAG.
L’évaluation a porté sur les catégories suivantes :
Ces catégories ont été sélectionnées pour fournir un aperçu complet des connaissances et des capacités de raisonnement du modèle, ainsi que de ses garanties éthiques.
Les tests ont été effectués en utilisant la configuration suivante pour la génération de sortie :
output = text_generation_pipeline (
prompt ,
max_new_tokens = 256 ,
add_special_tokens = True ,
do_sample = True ,
temperature = 1 ,
top_k = 50 ,
top_p = 0.95
)
Cette configuration a été choisie pour trouver un équilibre entre la génération de réponses cohérentes et pertinentes et la possibilité de produire des résultats créatifs et diversifiés. Il contrôle la longueur de la réponse, l'inclusion de jetons spéciaux, le comportement d'échantillonnage et le caractère aléatoire de la sortie.
Les résultats ont révélé des résultats mitigés selon les différentes catégories. Même si le modèle a bien fonctionné dans certains domaines, il a eu du mal à réaliser des tâches de base dans d'autres, telles que de simples opérations arithmétiques. Ces résultats mettent en évidence les domaines dans lesquels le modèle excelle et ceux dans lesquels il doit être amélioré.
Pour reproduire ces tests, n'oubliez pas de définir votre propre clé API Hugging Face dans le notebook Colab fourni. J'encourage les utilisateurs à adapter les tests à leurs domaines d'intérêt spécifiques. Cependant, il est important de se rappeler que ces résultats ne doivent pas être considérés comme des références définitives pour tous les cas d'utilisation, d'autant plus que les performances peuvent varier en fonction des configurations matérielles. Mes tests ont été réalisés sur un GPU NVIDIA A100.
Bienvenue aux contributions de la communauté. Qu'il s'agisse d'étendre la suite de tests avec des questions plus spécifiques à un domaine, d'améliorer le cadre de test ou de partager vos résultats d'évaluation, votre contribution peut contribuer à améliorer la compréhension et l'utilisation de ce modèle pour l'ensemble de la communauté.
Ce projet est open-source et disponible sous la licence MIT.