Um novo estudo da Universidade da Califórnia, Berkeley, revela o impacto das modificações automáticas de dicas do modelo de linguagem grande (LLM) na ferramenta de geração de imagens DALL-E3. Por meio de um experimento online envolvendo 1.891 participantes, a equipe de pesquisa comparou o desempenho do DALL-E2, DALL-E3 e DALL-E3 modificados usando prompts automáticos na geração de imagens e conduziu uma análise aprofundada do impacto da modificação automática de prompts em qualidade de imagem e impacto na experiência do usuário. Os resultados experimentais são surpreendentes e proporcionam uma nova perspectiva para a aplicação de ferramentas de IA.
Recentemente, um estudo da Universidade da Califórnia, Berkeley, mostrou que a modificação automática de sugestões por grandes modelos de linguagem (LLM) pode reduzir significativamente a qualidade das imagens geradas pelo DALL-E3. O estudo conduziu um experimento online com 1.891 participantes para explorar o impacto dessa reescrita automática na qualidade da imagem.
No experimento, os participantes foram distribuídos aleatoriamente em três grupos: DALL-E2, DALL-E3 e DALL-E3 com revisão imediata automática. Os participantes foram solicitados a escrever dez instruções consecutivas que reproduzissem uma imagem alvo com a maior precisão possível. Os resultados mostram que o DALL-E3 é realmente melhor que o DALL-E2 na geração de imagens, e o grau de correspondência entre a imagem gerada e o alvo é significativamente melhorado. No entanto, ao usar prompts modificados automaticamente, o desempenho do DALL-E3 caiu quase 58%. Embora os usuários do DALL-E3 que usam reescrita de prompt ainda tenham desempenho superior aos que usam o DALL-E2, essa vantagem foi significativamente reduzida.
Os pesquisadores descobriram que a diferença de desempenho entre DALL-E3 e DALL-E2 se deve principalmente a dois fatores: um é a melhoria das capacidades técnicas do DALL-E3 e o outro é a adaptabilidade do usuário nas estratégias de solicitação. Em particular, os usuários do DALL-E3 usaram prompts mais longos, mais semanticamente semelhantes e usaram palavras mais descritivas. Os participantes não sabiam qual modelo estavam utilizando, mas seu desempenho demonstrou essa adaptabilidade.
Os pesquisadores acreditam que à medida que os modelos continuarem a melhorar, os usuários continuarão a ajustar seus prompts para aproveitar melhor os recursos do modelo mais recente. Isto mostra que, embora o surgimento de novos modelos não torne os prompts obsoletos, os prompts ainda são um meio importante para os usuários explorarem o potencial de novos modelos.
Este estudo lembra-nos que as ferramentas automatizadas nem sempre ajudam os utilizadores a melhorar o desempenho e podem, em vez disso, impedi-los de atingir todo o potencial dos seus modelos. Portanto, ao usar ferramentas de IA, os usuários devem considerar como ajustar suas dicas de maneira mais eficaz para obter uma geração de imagem mais ideal.
Destaque:
A revisão imediata automática faz com que a qualidade da imagem do DALL-E3 caia quase 58%, limitando o desempenho do usuário.
O experimento descobriu que embora o DALL-E3 fosse melhor que o DALL-E2, o efeito foi enfraquecido após a modificação automática dos prompts.
Os usuários precisam ajustar a estratégia de solicitação de acordo com o progresso do modelo para realizar plenamente o potencial do novo modelo.
Em suma, este estudo enfatiza a iniciativa e adaptabilidade do utilizador na utilização de ferramentas de IA, lembrando-nos que não podemos confiar cegamente em ferramentas automatizadas, mas devemos explorar ativamente os melhores métodos de interação, a fim de realizar plenamente o potencial dos modelos de IA e obter as melhores imagens. Isto tem um significado orientador importante para o desenvolvimento e aplicação de futuras ferramentas de IA.