A pesquisa mais recente da Apple lançou o teste de benchmark MAD-Bench, que foi projetado para avaliar a robustez de modelos multimodais de grandes linguagens (MLLMs) ao lidar com informações enganosas. Este estudo avalia de forma abrangente a capacidade dos MLLMs de lidar com a consistência de texto e imagem por meio de 850 pares de prompts de imagem, fornecendo dados de referência valiosos para o desenvolvimento de MLLMs. O estabelecimento deste parâmetro de referência ajudará a melhorar a fiabilidade e as capacidades anti-interferência dos modelos de IA e a promover o desenvolvimento saudável da tecnologia de IA.
A Apple Research propôs o benchmark MAD-Bench para resolver o problema de vulnerabilidade de modelos multimodais de grandes linguagens (MLLMs) no tratamento de informações enganosas. Este estudo consistiu em 850 pares de sugestões de imagem e avaliou a capacidade dos MLLMs de lidar com a congruência de texto e imagem. O estudo descobriu que o GPT-4V teve melhor desempenho na compreensão de cenas e confusão visual, fornecendo dicas importantes para projetar modelos de IA. Através do benchmark MAD-Bench, a robustez do modelo de IA será melhorada e as pesquisas futuras serão mais confiáveis.O surgimento do benchmark MAD-Bench marca uma nova etapa na avaliação do modelo de IA. No futuro, surgirão cada vez mais benchmarks confiáveis, promovendo o desenvolvimento da tecnologia de IA de forma mais segura e confiável e trazendo mais benefícios para a sociedade humana.