Les dernières recherches d'Apple ont publié le test de référence MAD-Bench, conçu pour évaluer la robustesse des modèles multimodaux de langage étendu (MLLM) lorsqu'ils traitent des informations trompeuses. Cette étude évalue de manière exhaustive la capacité des MLLM à gérer la cohérence du texte et des images grâce à 850 paires d'invites d'images, fournissant ainsi des données de référence précieuses pour le développement des MLLM. L'établissement de cette référence contribuera à améliorer la fiabilité et les capacités anti-interférences des modèles d'IA et à promouvoir le développement sain de la technologie de l'IA.
Apple Research a proposé le benchmark MAD-Bench pour résoudre le problème de vulnérabilité des grands modèles de langage multimodaux (MLLM) dans le traitement d'informations trompeuses. Cette étude comprenait 850 paires d'images-repères et évaluait la capacité des MLLM à gérer la congruence du texte et des images. L'étude a révélé que le GPT-4V était plus performant en matière de compréhension des scènes et de confusion visuelle, fournissant ainsi des conseils importants pour la conception de modèles d'IA. Grâce au benchmark MAD-Bench, la robustesse du modèle d'IA sera améliorée et les recherches futures seront plus fiables.L'émergence du benchmark MAD-Bench marque une nouvelle étape dans l'évaluation des modèles d'IA. À l'avenir, des benchmarks de plus en plus fiables apparaîtront, favorisant le développement de la technologie de l'IA de manière plus sûre et plus fiable, et apportant davantage d'avantages à la société humaine.