В условиях быстрого развития генеративной технологии искусственного интеллекта объективная оценка ее производительности стала актуальной проблемой, которую необходимо решить. Традиционные методы оценки, особенно для моделей диаграмм Винсента, имеют субъективность и ограничения, что затрудняет точное отражение фактического эффекта модели. Редактор Downcodes познакомит вас с новой программой оценки винсентианских графов, совместно запущенной Университетом Карнеги-Меллона и исследователями Meta - VQAScore, и новым эталоном оценки - GenAI-Bench, а также с тем, как они изменят стандарты оценки в области винсентианских графов. .
Традиционные методы оценки либо полагаются на человеческий взгляд, который слишком субъективен, либо используют некоторые простые индикаторы, такие как CLIPScore, но эти индикаторы часто не могут уловить детали в сложных текстовых подсказках, таких как взаимосвязь между объектами и логические рассуждения и т. д. Это приводит к неточным результатам оценки многих графических моделей Винсента и даже случаются некоторые забавные ситуации. Сгенерированные изображения явно неверны, но оценки довольно высоки.
Чтобы решить эту проблему, исследователи из Университета Карнеги-Меллона и компании Meta недавно объединили усилия, чтобы запустить новую программу оценки винсентианских графов — VQAScore. Основная идея этого решения заключается в использовании модели визуального ответа на вопрос (VQA) для оценки графовой модели Винсента.
В частности, VQAScore сначала преобразует текстовую подсказку в простой вопрос, например «Есть ли на этом изображении кошка, гоняющаяся за мышью?», а затем передает сгенерированное изображение и этот вопрос в модель VQA. Модель VQA будет оценивать, будет ли ответ на вопрос «да» или «нет», на основе содержания изображения, а VQAScore будет оценивать модель диаграммы Винсента на основе вероятности того, что модель VQA ответит «да».
Этот метод кажется простым, но эффект оказывается на удивление хорошим. Исследователи использовали VQAScore для тестирования на восьми различных тестах оценки графов Винсента. Результаты показали, что точность и надежность VQAScore намного превосходят традиционные методы оценки и даже сопоставимы с теми, которые используют очень большие модели, такие как GPT-4V Comparable.
Еще более мощным является то, что VQAScore можно использовать не только для оценки фотографий Винсента, но также для оценки видео Винсента и 3D-моделей Винсента. Это связано с тем, что ядром VQAScore является модель VQA, а сама модель VQA может обрабатывать различные типы визуального контента.
Чтобы способствовать дальнейшему прогрессу в области винсентианских графов, исследователи также создали новый эталон оценки винсентианских графов — GenAI-Bench. Этот тест содержит 1600 сложных текстовых подсказок, охватывающих различные способности визуального мышления, такие как сравнение, счет, логические рассуждения и т. д. Исследователи также собрали более 15 000 ручных аннотаций, чтобы оценить эффективность различных моделей диаграмм Винсента.
В целом, появление VQAScore и GenAI-Bench придало новую жизнь области графиков Винсента. VQAScore предоставляет более точный и надежный метод оценки, который может помочь исследователям лучше оценить преимущества и недостатки различных моделей. GenAI-Bench предоставляет более полный и сложный тест оценки, который может способствовать развитию моделей графа Винсента в более интеллектуальном и гуманном направлении.
Конечно, VQAScore также имеет некоторые ограничения. В настоящее время VQAScore в основном опирается на модели VQA с открытым исходным кодом, и производительность этих моделей не так хороша, как у моделей с закрытым исходным кодом, таких как GPT-4V. В будущем, по мере дальнейшего совершенствования модели VQA, производительность VQAScore будет улучшаться и дальше.
Адрес проекта: https://linzhiqiu.github.io/papers/vqascore/
Появление VQAScore и GenAI-Bench обеспечивает новый способ объективной оценки моделей графов Винсента и способствует технологическому развитию и инновациям в приложениях в этой области. Считается, что в будущем появятся все более совершенные методы оценки, которые еще больше повысят производительность и прикладную ценность модели диаграммы Винсента. Надеемся на дальнейший прогресс в этой области!