Новое исследование Калифорнийского университета в Беркли показывает влияние автоматических модификаций подсказок модели большого языка (LLM) на инструмент генерации изображений DALL-E3. В ходе онлайн-эксперимента с участием 1891 участника исследовательская группа сравнила производительность DALL-E2, DALL-E3 и DALL-E3, модифицированных с помощью автоматических подсказок при создании изображений, и провела углубленный анализ влияния автоматической модификации подсказок на качество изображения и влияние на пользовательский опыт. Результаты экспериментов удивительны и открывают новую перспективу для применения инструментов искусственного интеллекта.
Недавно исследование Калифорнийского университета в Беркли показало, что автоматическая модификация реплик с помощью моделей большого языка (LLM) может значительно снизить качество изображений, генерируемых DALL-E3. В ходе исследования был проведен онлайн-эксперимент с участием 1891 участника, чтобы изучить влияние автоматического переписывания на качество изображения.
В эксперименте участники были случайным образом распределены на три группы: DALL-E2, DALL-E3 и DALL-E3 с автоматическим быстрым пересмотром. Участникам необходимо было написать десять последовательных подсказок, которые максимально точно воспроизводили целевой образ. Результаты показывают, что DALL-E3 действительно лучше, чем DALL-E2, при генерации изображений, а степень соответствия между сгенерированным изображением и целью значительно улучшается. Однако при использовании автоматически изменяемых подсказок производительность DALL-E3 упала почти на 58%. Хотя пользователи DALL-E3, использующие быструю перезапись, по-прежнему превосходили пользователей DALL-E2, это преимущество было значительно уменьшено.
Исследователи обнаружили, что разрыв в производительности между DALL-E3 и DALL-E2 в основном обусловлен двумя факторами: одним из них является улучшение технических возможностей DALL-E3, а другим — адаптируемость пользователя к стратегиям подсказок. В частности, пользователи DALL-E3 использовали более длинные, семантически похожие подсказки и использовали больше описательных слов. Участники не знали, какую модель они использовали, но их выступления продемонстрировали эту адаптивность.
Исследователи полагают, что по мере совершенствования моделей пользователи будут продолжать корректировать свои подсказки, чтобы лучше использовать возможности последней модели. Это показывает, что, хотя появление новых моделей не сделает подсказки устаревшими, подсказки по-прежнему остаются для пользователей важным средством изучения потенциала новых моделей.
Это исследование напоминает нам, что автоматизированные инструменты не всегда помогают пользователям повысить производительность и вместо этого могут ограничивать их возможность полностью раскрыть потенциал своих моделей. Поэтому при использовании инструментов искусственного интеллекта пользователям следует подумать о том, как наиболее эффективно настроить свои сигналы для достижения более оптимального формирования изображения.
Выделять:
Автоматическое изменение запроса приводит к падению качества изображения DALL-E3 почти на 58 %, что ограничивает производительность пользователя.
Эксперимент показал, что, хотя DALL-E3 был лучше, чем DALL-E2, эффект ослаблялся после автоматического изменения подсказок.
Пользователям необходимо корректировать стратегию подсказок в соответствии с развитием модели, чтобы полностью реализовать потенциал новой модели.
В целом, это исследование подчеркивает инициативность и адаптивность пользователя в использовании инструментов ИИ, напоминая нам, что мы не можем слепо полагаться на автоматизированные инструменты, а должны активно исследовать лучшие методы взаимодействия, чтобы полностью реализовать потенциал моделей ИИ и получить Создание лучших изображений. Это имеет важное руководящее значение для разработки и применения будущих инструментов искусственного интеллекта.