В последние годы технологии рисования с помощью искусственного интеллекта быстро развиваются, но все еще существуют некоторые, казалось бы, простые сцены, которые трудно представить идеально. Исследовательская группа из Шанхайского университета Цзяо Тонг обнаружила, что ИИ неоднократно не мог сгенерировать сцену «Ледяная кола в чашке чая», что привлекло академическое внимание к проблеме несовпадения текста и изображения. Команда углубилась в эту «проблему чашки» и предложила новый метод под названием «Смесь экспертов по концепциям» (MoCE), который эффективно решает скрытую проблему несоответствия концепций при генерации изображений ИИ.
В области искусственного интеллекта возможности художников-ИИ постоянно совершенствуются и совершенствуются. Однако даже самые продвинутые модели генерации изображений с помощью ИИ могут сталкиваться с некоторыми, казалось бы, простыми задачами. Недавно Чжао Цзюньту, докторант Шанхайского университета Цзяо Тонг, и его команда обнаружили в своем исследовании, что ИИ обнаружил неожиданные трудности при создании сцены «Ледяная кола в чашке чая».
Это явление привлекло внимание академических кругов и называется несовпадением текста и изображения. В октябре 2023 года, когда модель генерации изображений ИИ только зарождалась, Чжао Цзюньту и его команда попробовали ее и обнаружили, что, когда художники ИИ конструировали эту сцену, они часто вместо чайной чашки рисовали прозрачный стакан, наполненный ледяной колой. Даже когда в июле 2024 года его попытались использовать самые современные модели, результаты все равно оказались неудовлетворительными.
Чтобы глубже изучить эту проблему, исследовательская группа профессора Ван Децюана из Шанхайского университета Цзяо Тун классифицирует эту проблему как содержащую скрытые переменные в предстоящей статье «Трудности перевода: скрытое несовпадение понятий в моделях диффузии текста в изображение». проблема (скрытое несовпадение концепций, называемое LC-Mis). Они разработали систему, основанную на больших языковых моделях (LLM), чтобы использовать человеческое мышление, содержащееся в LLM, для быстрого сбора пар понятий со схожими проблемами.
Исследовательская группа предложила метод под названием «Смесь концептуальных экспертов» (MoCE), который интегрировал правила последовательного рисования в многоэтапный процесс выборки диффузионных моделей, и успешно вернула пропавшую чашку.
Он делит весь процесс выборки на два этапа: на первом этапе предоставляются только понятия, которые легко упустить из виду, а на втором этапе используются полные текстовые подсказки. Благодаря такому подходу MoCE может более точно контролировать выравнивание текста и изображений при создании изображений.
Метод MoCE значительно уменьшает долю пар концепций LC-Mis уровня 5 и даже превосходит Dall・E3 (версия от октября 2023 г.), которая в определенной степени требует больших затрат на аннотирование данных.
Кроме того, исследовательская группа также обнаружила, что существующие индикаторы автоматизированной оценки имеют очевидные недостатки при столкновении с новыми проблемами такого типа. Например, некоторые показатели оценки дают более низкий балл ледяной коле в чайной чашке, но дают более высокий балл ледяной коле в прозрачном стакане. Это говорит о том, что даже сами инструменты оценки производительности ИИ могут иметь предвзятости и ограничения.
Исследователи планируют изучить более сложные сценарии LC-Mis в будущей работе и разработать обучаемые алгоритмы поиска, чтобы сократить количество итераций. Они также планируют расширить типы моделей, версии моделей и типы пробоотборников, используемых в наборе данных, и продолжить работу над алгоритмом сбора набора данных для улучшения и расширения набора данных.
Это исследование не только открывает новую перспективу для понимания ограничений ИИ в создании изображений, но также предлагает новые идеи и методы для улучшения возможностей ИИ по созданию изображений. Поскольку технологии продолжают развиваться, мы ожидаем, что ИИ совершит большие прорывы в понимании и воспроизведении человеческого творчества.
Адрес проекта: https://lcmis.github.io/
Документ: https://arxiv.org/pdf/2408.00230.
Это исследование «проблемы чашки» при создании изображений ИИ раскрывает ограничения моделей ИИ в обработке тонких концепций, а также предоставляет ценную информацию для будущего направления развития технологий ИИ. Метод MoCE, предложенный исследовательской группой, и анализ существующих показателей оценки выведут технологию генерации изображений AI на новый уровень.