Une nouvelle étude de l'Université de Californie à Berkeley révèle l'impact des modifications automatiques des indices du grand modèle de langage (LLM) sur l'outil de génération d'images DALL-E3. Grâce à une expérience en ligne impliquant 1 891 participants, l'équipe de recherche a comparé les performances de DALL-E2, DALL-E3 et DALL-E3 modifiés à l'aide d'invites automatiques dans la génération d'images, et a mené une analyse approfondie de l'impact de la modification automatique des invites sur qualité de l’image et impact sur l’expérience utilisateur. Les résultats expérimentaux sont surprenants et offrent une nouvelle perspective pour l’application des outils d’IA.
Récemment, une étude de l'Université de Californie à Berkeley a montré que la modification automatique des signaux par de grands modèles de langage (LLM) peut réduire considérablement la qualité des images générées par DALL-E3. L'étude a mené une expérience en ligne auprès de 1 891 participants pour explorer l'impact de cette réécriture automatique sur la qualité de l'image.
Dans l'expérience, les participants ont été répartis au hasard en trois groupes : DALL-E2, DALL-E3 et DALL-E3 avec révision automatique. Les participants devaient rédiger dix invites consécutives reproduisant une image cible aussi précisément que possible. Les résultats montrent que DALL-E3 est en effet meilleur que DALL-E2 en termes de génération d'images et que le degré de correspondance entre l'image générée et la cible est considérablement amélioré. Cependant, lors de l'utilisation d'invites modifiées automatiquement, les performances du DALL-E3 ont chuté de près de 58 %. Même si les utilisateurs de DALL-E3 utilisant la réécriture rapide surpassaient toujours ceux utilisant DALL-E2, cet avantage était considérablement réduit.
Les chercheurs ont découvert que l'écart de performances entre DALL-E3 et DALL-E2 est principalement dû à deux facteurs : l'un est l'amélioration des capacités techniques de DALL-E3 et l'autre est l'adaptabilité de l'utilisateur dans les stratégies d'incitation. En particulier, les utilisateurs de DALL-E3 ont utilisé des invites plus longues, plus similaires sémantiquement et des mots plus descriptifs. Les participants ne savaient pas quel modèle ils utilisaient, mais leur performance démontrait cette adaptabilité.
Les chercheurs pensent qu'à mesure que les modèles continuent de s'améliorer, les utilisateurs continueront d'ajuster leurs invites pour mieux tirer parti des capacités du dernier modèle. Cela montre que même si l’émergence de nouveaux modèles ne rendra pas les invites obsolètes, celles-ci restent un moyen important permettant aux utilisateurs d’explorer le potentiel des nouveaux modèles.
Cette étude nous rappelle que les outils automatisés n'aident pas toujours les utilisateurs à améliorer leurs performances et peuvent au contraire les empêcher d'exploiter tout le potentiel de leurs modèles. Par conséquent, lorsqu’ils utilisent des outils d’IA, les utilisateurs doivent réfléchir à la manière d’ajuster le plus efficacement leurs signaux pour obtenir une génération d’images plus optimale.
Souligner:
La révision automatique des invites entraîne une baisse de la qualité de l'image DALL-E3 de près de 58 %, limitant les performances de l'utilisateur.
L'expérience a révélé que même si DALL-E3 était meilleur que DALL-E2, l'effet était affaibli après la modification automatique des invites.
Les utilisateurs doivent ajuster la stratégie d'incitation en fonction de la progression du modèle pour réaliser pleinement le potentiel du nouveau modèle.
Dans l'ensemble, cette étude met l'accent sur l'initiative et l'adaptabilité de l'utilisateur dans l'utilisation des outils d'IA, nous rappelant que nous ne pouvons pas nous fier aveuglément aux outils automatisés, mais que nous devons explorer activement les meilleures méthodes d'interaction afin de réaliser pleinement le potentiel des modèles d'IA et d'obtenir les meilleures images. Cela revêt une importance directrice importante pour le développement et l’application des futurs outils d’IA.