Ce référentiel est dédié à fournir un guide complet pour tester les grands modèles linguistiques (LLM) comme la série GPT d'OpenAI. Il couvre une gamme de méthodologies de test conçues pour garantir que les LLM sont fiables, sûrs, impartiaux et efficaces dans diverses applications. Chaque type de test est crucial pour développer des LLM qui fonctionnent de manière efficace et éthique dans des scénarios du monde réel.
Ce guide comprend les catégories de tests suivantes, chacune contenue dans son répertoire respectif :
Tests contradictoires : techniques pour contester le modèle avec des entrées délicates ou trompeuses afin de garantir la robustesse.
Tests comportementaux : garantit que le modèle se comporte comme prévu dans une gamme de scénarios.
Tests de conformité : vérifie le respect des normes juridiques et éthiques.
Test d'exactitude factuelle : vérifie l'exactitude des informations fournies par le modèle.
Tests d’équité et de biais : évalue les résultats pour s’assurer qu’ils sont exempts de préjugés démographiques.
Tests d'intégration : évalue dans quelle mesure le LLM s'intègre à d'autres systèmes logiciels.
Tests d'interprétabilité et d'explicabilité : teste la capacité du modèle à expliquer ses décisions.
Tests de performances : mesure l'efficacité et l'évolutivité du modèle sous diverses charges.
Tests de régression : garantit que les nouvelles mises à jour ne perturbent pas les fonctionnalités existantes.
Tests de sûreté et de sécurité : garantit que le modèle ne suggère ni n'autorise de comportements nuisibles.
Chaque répertoire contient un README.md
détaillé qui explique les méthodes de test spécifiques utilisées, ainsi que examples.md
fournissant des exemples pratiques et des scénarios pour effectuer les tests.
Pour utiliser ce guide :
Accédez à n’importe quel répertoire de catégories de tests qui correspond à vos besoins en matière de tests.
Lisez le README.md
pour un aperçu et une explication détaillée de l'objectif des tests dans cette catégorie.
Explorez le examples.md
pour connaître des scénarios de test spécifiques, les résultats attendus et des conseils sur la mise en œuvre des tests.