Com o rápido desenvolvimento da tecnologia de IA generativa, como avaliar objetivamente o seu desempenho tornou-se um problema urgente a ser resolvido. Especialmente para os modelos de diagrama de Vincent, os métodos de avaliação tradicionais têm subjetividade e limitações, tornando difícil refletir com precisão o efeito real do modelo. O editor do Downcodes apresentará a você o novo programa de avaliação de grafos vicentinos lançado em conjunto pela Carnegie Mellon University e pesquisadores Meta - VQAScore, e um novo benchmark de avaliação - GenAI-Bench, e como eles mudarão os padrões de avaliação na área de grafos vicentinos .
Os métodos de avaliação tradicionais baseiam-se em olhos humanos, que são demasiado subjetivos, ou utilizam alguns indicadores simples, como o CLIPScore, mas estes indicadores muitas vezes não conseguem captar os detalhes em instruções de texto complexas, como a relação entre objetos e raciocínio lógico, etc. Isso leva a resultados de avaliação imprecisos de muitos modelos gráficos vicentinos, e até mesmo ocorrem algumas situações engraçadas. As imagens geradas estão claramente erradas, mas as pontuações são bastante altas.
Para resolver este problema, pesquisadores da Carnegie Mellon University e da Meta uniram recentemente forças para lançar um novo programa vicentino de avaliação de gráficos - VQAScore. A ideia central desta solução é usar o modelo de resposta visual a perguntas (VQA) para pontuar o modelo de gráfico de Vincent.
Especificamente, o VQAScore primeiro converterá o prompt de texto em uma pergunta simples, como "Há um gato perseguindo um rato nesta imagem?", e então lançará a imagem gerada e esta pergunta para o modelo VQA. O modelo VQA julgará se a resposta à pergunta é "sim" ou "não" com base no conteúdo da imagem, e o VQAScore pontuará o modelo do diagrama de Vincent com base na probabilidade do modelo VQA julgar "sim".
Este método parece simples, mas o efeito é surpreendentemente bom. Os pesquisadores usaram o VQAScore para testar oito benchmarks diferentes de avaliação de gráficos Vincent. Os resultados descobriram que a precisão e a confiabilidade do VQAScore excederam em muito os métodos de avaliação tradicionais e foram até comparáveis àqueles que usam modelos muito grandes, como o GPT-4V.
O que é ainda mais poderoso é que o VQAScore não só pode ser usado para avaliar imagens de Vincent, mas também para avaliar vídeos e modelos 3D de Vincent. Isso ocorre porque o núcleo do VQAScore é o modelo VQA, e o próprio modelo VQA pode lidar com vários tipos de conteúdo visual.
A fim de promover ainda mais o progresso no campo dos gráficos vicentinos, os pesquisadores também criaram um novo benchmark de avaliação de gráficos vicentinos - GenAI-Bench. Este benchmark contém 1.600 prompts de texto complexos que abrangem diversas habilidades de raciocínio de linguagem visual, como comparação, contagem, raciocínio lógico, etc. Os pesquisadores também coletaram mais de 15.000 anotações manuais para avaliar a eficácia de diferentes modelos de diagramas de Vincent.
Em geral, o surgimento do VQAScore e do GenAI-Bench trouxe uma nova vitalidade ao campo dos gráficos Vincent. VQAScore fornece um método de avaliação mais preciso e confiável que pode ajudar os pesquisadores a avaliar melhor as vantagens e desvantagens de diferentes modelos. GenAI-Bench fornece um benchmark de avaliação mais abrangente e desafiador, que pode promover o desenvolvimento de modelos gráficos Vincent em uma direção mais inteligente e humana.
Claro, o VQAScore também tem algumas limitações. Atualmente, o VQAScore depende principalmente de modelos VQA de código aberto, e o desempenho desses modelos não é tão bom quanto o de modelos de código fechado, como o GPT-4V. No futuro, à medida que o modelo VQA continuar a melhorar, o desempenho do VQAScore será melhorado ainda mais.
Endereço do projeto: https://linzhiqiu.github.io/papers/vqascore/
O surgimento do VQAScore e do GenAI-Bench fornece uma nova maneira de avaliar objetivamente os modelos gráficos vicentinos e promove o desenvolvimento tecnológico e a inovação de aplicações neste campo. Acredita-se que métodos de avaliação cada vez mais avançados surgirão no futuro para melhorar ainda mais o desempenho e o valor da aplicação do modelo do diagrama de Vincent. Ansiosos pelo progresso contínuo neste campo!