Google a récemment annoncé que son dernier modèle de génération d'images, ImageN3, était maintenant ouvert aux développeurs via l'API Gemini. Ce modèle a non seulement de puissantes capacités de génération d'images, mais crée également des images dans une variété de styles artistiques basés sur des repères de texte d'entrée, couvrant un large éventail de domaines allant du surréalisme aux caractères d'anime.
ImageN3 est très simple à utiliser. Le coût de génération par image n'est que de 0,03 $, adapté aux développeurs et aux entreprises qui nécessitent une génération d'images par lots. Grâce à cette stratégie de tarification raisonnable, Google vise à réduire le seuil de travail créatif et à permettre à plus de gens de profiter du plaisir de la création artistique apportée par l'IA.
ImageN3 démontre des capacités exceptionnelles lors de la génération d'images. Qu'il s'agisse de couleurs délicates ou de détails complexes, le modèle peut réaliser avec précision les idées de l'utilisateur. Pour améliorer l'expérience utilisateur, ImageN3 a également introduit une fonction de suivi invite améliorée. Par exemple, décrivant l'apparence et le fond d'un animal, le modèle peut générer des images extrêmement ajustées pour répondre aux besoins créatifs des utilisateurs.
De plus, ImageN3 prend également en compte le droit d'auteur et l'utilisation abusive de la génération d'images. Chaque image générée sera livrée avec un filigrane numérique invisible appelé Synthed. Ce filigrane ne peut pas être reconnu à l'œil nu, mais peut être vérifié par une technologie spécialisée pour s'assurer que les images sont générées par l'IA, en freinant efficacement les risques de fausses informations et une mauvaise utilisation.
Il est également très facile pour les développeurs de commencer à utiliser Imagen3. Avec un exemple de code Python simple, les utilisateurs peuvent rapidement interagir avec l'API et générer leurs images préférées. Alors que Google prévoit de connecter des modèles plus génératifs à l'API Gemini à l'avenir, les développeurs pourront créer un contenu plus interactif pour stimuler la diversification des produits créatifs.
Google explore activement la combinaison de modèles de médias et de langues génératifs, et les scénarios d'application à l'avenir seront plus étendus, et les développeurs peuvent utiliser ces technologies pour réaliser un plus grand potentiel dans la création de contenu et le développement d'outils.
Documentation: https://ai.google.dev/gemini-api/docs/imagen-prompt-guide?hl=zh-cn
La décision de Google favorisera davantage l'application et le développement de la technologie de l'IA, afin que davantage de développeurs et d'entreprises puissent profiter de la commodité et de l'innovation apportées par l'IA.