Avec le développement rapide de la technologie de l’IA générative, comment évaluer objectivement ses performances est devenu un problème urgent à résoudre. En particulier pour les modèles de diagrammes de Vincent, les méthodes d'évaluation traditionnelles présentent une subjectivité et des limites, ce qui rend difficile de refléter avec précision l'effet réel du modèle. L'éditeur de Downcodes vous présentera le nouveau programme d'évaluation des graphes vincentiens lancé conjointement par l'Université Carnegie Mellon et les chercheurs Meta - VQAScore, ainsi qu'un nouveau benchmark d'évaluation - GenAI-Bench, et comment ils changeront les normes d'évaluation dans le domaine des graphes vincentiens. .
Les méthodes d'évaluation traditionnelles s'appuient soit sur l'œil humain, qui est trop subjectif, soit sur des indicateurs simples, tels que CLIPScore, mais ces indicateurs ne parviennent souvent pas à capturer les détails des invites textuelles complexes, telles que la relation entre les objets et le raisonnement logique, etc. Cela conduit à des résultats d'évaluation inexacts de nombreux modèles de graphiques vincentiens, et même des situations amusantes se produisent. Les images générées sont clairement fausses, mais les scores sont assez élevés.
Afin de résoudre ce problème, des chercheurs de l'Université Carnegie Mellon et Meta ont récemment uni leurs forces pour lancer un nouveau programme d'évaluation de graphes vincentiens, VQAScore. L'idée principale de cette solution est d'utiliser le modèle de réponse visuelle aux questions (VQA) pour évaluer le modèle graphique de Vincent.
Plus précisément, VQAScore convertira d'abord l'invite de texte en une question simple, telle que « Y a-t-il un chat poursuivant une souris dans cette image ? », puis transmettra l'image générée et cette question au modèle VQA. Le modèle VQA jugera si la réponse à la question est « oui » ou « non » en fonction du contenu de l'image, et VQAScore attribuera une note au modèle de diagramme de Vincent en fonction de la probabilité que le modèle VQA juge « oui ».
Cette méthode semble simple, mais l’effet est étonnamment bon. Les chercheurs ont utilisé VQAScore pour tester huit références d'évaluation de graphiques Vincent différentes. Les résultats ont révélé que la précision et la fiabilité de VQAScore dépassaient de loin les méthodes d'évaluation traditionnelles et étaient même comparables à celles utilisant de très grands modèles tels que GPT-4V.
Ce qui est encore plus puissant, c'est que VQAScore peut non seulement être utilisé pour évaluer les images de Vincent, mais également pour évaluer les vidéos de Vincent et les modèles 3D de Vincent. En effet, le cœur de VQAScore est le modèle VQA, et le modèle VQA lui-même peut gérer différents types de contenu visuel.
Afin de promouvoir davantage les progrès dans le domaine des graphiques vincentiens, les chercheurs ont également créé un nouveau benchmark d'évaluation des graphiques vincentiens, GenAI-Bench. Ce benchmark contient 1 600 invites textuelles complexes couvrant diverses capacités de raisonnement en langage visuel, telles que la comparaison, le comptage, le raisonnement logique, etc. Les chercheurs ont également collecté plus de 15 000 annotations manuelles pour évaluer l’efficacité des différents modèles de diagrammes de Vincent.
De manière générale, l'émergence de VQAScore et GenAI-Bench a apporté une nouvelle vitalité au domaine des graphes Vincent. VQAScore fournit une méthode d'évaluation plus précise et plus fiable qui peut aider les chercheurs à mieux évaluer les avantages et les inconvénients des différents modèles. GenAI-Bench fournit une référence d'évaluation plus complète et plus stimulante, qui peut promouvoir le développement des modèles de graphiques Vincent dans une direction plus intelligente et plus humaine.
Bien entendu, VQAScore présente également certaines limites. À l'heure actuelle, VQAScore s'appuie principalement sur des modèles VQA open source, et les performances de ces modèles ne sont pas aussi bonnes que celles des modèles fermés tels que GPT-4V. À l’avenir, à mesure que le modèle VQA continuera de s’améliorer, les performances de VQAScore seront encore améliorées.
Adresse du projet : https://linzhiqiu.github.io/papers/vqascore/
L'émergence de VQAScore et GenAI-Bench offre une nouvelle façon d'évaluer objectivement les modèles de graphes vincentiens et favorise le développement technologique et l'innovation applicative dans ce domaine. On pense que des méthodes d'évaluation de plus en plus avancées émergeront à l'avenir pour améliorer encore les performances et la valeur d'application du modèle de diagramme de Vincent. Au plaisir de continuer à progresser dans ce domaine !