La última investigación de Apple publicó la prueba comparativa MAD-Bench, que está diseñada para evaluar la solidez de los modelos de lenguajes grandes multimodales (MLLM) cuando se trata de información engañosa. Este estudio evalúa exhaustivamente la capacidad de los MLLM para manejar la coherencia del texto y las imágenes a través de 850 pares de indicaciones de imágenes, lo que proporciona datos de referencia valiosos para el desarrollo de los MLLM. El establecimiento de este punto de referencia ayudará a mejorar la confiabilidad y las capacidades antiinterferencias de los modelos de IA y promoverá el desarrollo saludable de la tecnología de IA.
Apple Research propuso el punto de referencia MAD-Bench para resolver el problema de la vulnerabilidad de los modelos de lenguajes grandes multimodales (MLLM) en el manejo de información engañosa. Este estudio consistió en 850 pares de imágenes y señales y evaluó la capacidad de los MLLM para manejar la congruencia de texto e imágenes. El estudio encontró que GPT-4V funcionó mejor en la comprensión de la escena y la confusión visual, proporcionando consejos importantes para diseñar modelos de IA. A través del punto de referencia MAD-Bench, se mejorará la solidez del modelo de IA y las investigaciones futuras serán más confiables.La aparición del punto de referencia MAD-Bench marca una nueva etapa en la evaluación del modelo de IA. En el futuro, aparecerán puntos de referencia cada vez más confiables, lo que promoverá el desarrollo de la tecnología de IA de manera más segura y confiable, y traerá más beneficios a la sociedad humana.