Con el rápido desarrollo de la tecnología de IA generativa, cómo evaluar objetivamente su desempeño se ha convertido en un problema urgente que debe resolverse. Especialmente para los modelos de diagramas de Vincent, los métodos de evaluación tradicionales tienen subjetividad y limitaciones, lo que dificulta reflejar con precisión el efecto real del modelo. El editor de Downcodes les presentará el nuevo programa de evaluación de gráficos vicencianos lanzado conjuntamente por la Universidad Carnegie Mellon y los investigadores de Meta, VQAScore, y un nuevo punto de referencia de evaluación, GenAI-Bench, y cómo cambiarán los estándares de evaluación en el campo de los gráficos vicencianos. .
Los métodos de evaluación tradicionales se basan en el ojo humano, que es demasiado subjetivo; o utilizan algunos indicadores simples, como CLIPScore, pero estos indicadores a menudo no pueden capturar los detalles en indicaciones de texto complejas, como la relación entre los objetos y el razonamiento lógico, etc. Esto conduce a resultados de evaluación inexactos de muchos modelos gráficos vicencianos, e incluso ocurren algunas situaciones divertidas. Las imágenes generadas son claramente incorrectas, pero las puntuaciones son bastante altas.
Para resolver este problema, investigadores de la Universidad Carnegie Mellon y Meta unieron fuerzas recientemente para lanzar un nuevo programa de evaluación de gráficos vicencianos: VQAScore. La idea central de esta solución es utilizar el modelo de respuesta visual a preguntas (VQA) para calificar el modelo de gráfico Vincent.
Específicamente, VQAScore primero convertirá el mensaje de texto en una pregunta simple, como "¿Hay un gato persiguiendo un mouse en esta imagen?", y luego arrojará la imagen generada y esta pregunta al modelo VQA. El modelo VQA juzgará si la respuesta a la pregunta es "sí" o "no" según el contenido de la imagen, y VQAScore calificará el modelo de diagrama de Vincent según la probabilidad de que el modelo VQA juzgue "sí".
Este método parece sencillo, pero el efecto es sorprendentemente bueno. Los investigadores utilizaron VQAScore para realizar pruebas en ocho puntos de referencia de evaluación de gráficos Vincent diferentes. Los resultados encontraron que la precisión y confiabilidad de VQAScore excedieron con creces los métodos de evaluación tradicionales, e incluso fueron comparables a aquellos que utilizan modelos muy grandes como GPT-4V.
Lo que es aún más poderoso es que VQAScore no solo se puede usar para evaluar imágenes de Vincent, sino también para evaluar videos de Vincent y modelos 3D de Vincent. Esto se debe a que el núcleo de VQAScore es el modelo VQA, y el modelo VQA en sí puede manejar varios tipos de contenido visual.
Para promover aún más el progreso en el campo de los gráficos vicencianos, los investigadores también crearon un nuevo punto de referencia de evaluación de gráficos vicencianos: GenAI-Bench. Este punto de referencia contiene 1600 indicaciones de texto complejas que cubren diversas habilidades de razonamiento del lenguaje visual, como comparación, conteo, razonamiento lógico, etc. Los investigadores también recopilaron más de 15.000 anotaciones manuales para evaluar la eficacia de diferentes modelos de diagramas de Vincent.
En general, la aparición de VQAScore y GenAI-Bench ha aportado nueva vitalidad al campo de los gráficos Vincent. VQAScore proporciona un método de evaluación más preciso y confiable que puede ayudar a los investigadores a evaluar mejor las ventajas y desventajas de diferentes modelos. GenAI-Bench proporciona un punto de referencia de evaluación más completo y desafiante, que puede promover el desarrollo de modelos de gráficos Vincent en una dirección más inteligente y humana.
Por supuesto, VQAScore también tiene algunas limitaciones. En la actualidad, VQAScore se basa principalmente en modelos VQA de código abierto, y el rendimiento de estos modelos no es tan bueno como el de los modelos de código cerrado como GPT-4V. En el futuro, a medida que el modelo VQA siga mejorando, el rendimiento de VQAScore mejorará aún más.
Dirección del proyecto: https://linzhiqiu.github.io/papers/vqascore/
La aparición de VQAScore y GenAI-Bench proporciona una nueva forma de evaluar objetivamente los modelos de gráficos vicencianos y promueve el desarrollo tecnológico y la innovación de aplicaciones en este campo. Se cree que en el futuro surgirán métodos de evaluación cada vez más avanzados para mejorar aún más el rendimiento y el valor de aplicación del modelo de diagrama de Vincent. ¡Esperamos seguir avanzando en este campo!