O Google anunciou recentemente que seu mais recente modelo de geração de imagens, Imagen3, foi aberto aos desenvolvedores através da API Gemini. Esse modelo não apenas possui recursos poderosos de geração de imagens, mas também cria imagens em uma variedade de estilos artísticos com base em pistas de texto de entrada, cobrindo uma ampla gama de áreas que variam de surrealismo a personagens de anime.
O Imagen3 é muito simples de usar. O custo da geração por imagem é de apenas US $ 0,03, adequado para desenvolvedores e empresas que exigem geração de imagens em lote. Através dessa estratégia de preços razoáveis, o Google pretende diminuir o limiar para o trabalho criativo e permitir que mais pessoas aproveitem a diversão da criação artística trazida pela IA.
O Imagen3 demonstra habilidades excelentes ao gerar imagens. Sejam cores delicadas ou detalhes complexos, o modelo pode perceber com precisão as idéias do usuário. Para melhorar a experiência do usuário, o Imagen3 também introduziu uma função de rastreamento imediata aprimorada. Por exemplo, descrevendo a aparência e o fundo de um animal, o modelo pode gerar imagens extremamente aptas para atender às necessidades criativas dos usuários.
Além disso, o Imagen3 também leva em consideração os direitos autorais e o uso indevido da geração de imagens. Cada imagem gerada virá com uma marca d'água digital invisível chamada Synthid. Essa marca d'água não pode ser reconhecida a olho nu, mas pode ser verificado por meio de tecnologia especializada para garantir que as imagens sejam geradas pela IA, reduzindo efetivamente os riscos de informações falsas e uso inadequado.
Também é muito fácil para os desenvolvedores começarem a usar o Imagen3. Com um exemplo simples de código Python, os usuários podem interagir rapidamente com a API e gerar suas imagens favoritas. Como o Google planeja conectar modelos mais generativos à API Gemini no futuro, os desenvolvedores poderão criar conteúdo mais interativo para impulsionar a diversificação de produtos criativos.
O Google está explorando ativamente a combinação de modelos generativos de mídia e idioma, e os cenários de aplicativos no futuro serão mais extensos, e os desenvolvedores podem usar essas tecnologias para obter maior potencial na criação de conteúdo e desenvolvimento de ferramentas.
Documentação: https://ai.google.dev/gemini-api/docs/imagen-prompt-guide?hl=zh-cn
A medida do Google promoverá ainda mais a aplicação e o desenvolvimento da tecnologia de IA, para que mais desenvolvedores e empresas possam desfrutar da conveniência e inovação trazida pela IA.