Google anunció recientemente que su último modelo de generación de imágenes, Imagen3, ahora se ha abierto a los desarrolladores a través de la API de Géminis. Este modelo no solo tiene potentes capacidades de generación de imágenes, sino que también crea imágenes en una variedad de estilos artísticos basados en señales de texto de entrada, que cubre una amplia gama de áreas que van desde el surrealismo hasta los caracteres de anime.
Imagen3 es muy simple de usar. El costo de generación por imagen es de solo $ 0.03, adecuado para desarrolladores y empresas que requieren generación de imágenes por lotes. A través de esta estrategia de precios razonable, Google tiene como objetivo reducir el umbral para el trabajo creativo y permitir que más personas disfruten de la diversión de la creación artística traída por la IA.
Imagen3 demuestra habilidades sobresalientes al generar imágenes. Ya sea que se trate de colores delicados o detalles complejos, el modelo puede realizar con precisión las ideas del usuario. Para mejorar la experiencia del usuario, Imagen3 también introdujo una función de seguimiento de inmediato. Por ejemplo, describiendo la apariencia y el fondo de un animal, el modelo puede generar imágenes extremadamente ajustadas para satisfacer las necesidades creativas de los usuarios.
Además, Imagen3 también tiene en cuenta los derechos de autor y el mal uso de la generación de imágenes. Cada imagen generada vendrá con una marca de agua digital invisible llamada Synthid. Esta marca de agua no puede ser reconocida a simple vista, pero puede verificarse a través de tecnología especializada para garantizar que las imágenes sean generadas por IA, frenando efectivamente los riesgos de información falsa y un uso inadecuado.
También es muy fácil para los desarrolladores comenzar a usar Imagen3. Con un simple ejemplo de código de Python, los usuarios pueden interactuar rápidamente con la API y generar sus imágenes favoritas. A medida que Google planea conectar modelos más generativos con la API de Géminis en el futuro, los desarrolladores podrán crear contenido más interactivo para impulsar la diversificación de productos creativos.
Google está explorando activamente la combinación de medios generativos y modelos de lenguaje, y los escenarios de aplicaciones en el futuro serán más extensos, y los desarrolladores pueden usar estas tecnologías para obtener un mayor potencial en la creación de contenido y el desarrollo de herramientas.
Documentación: https://ai.google.dev/gemini-api/docs/imagen-prompt-guide?hl=zh-cn
El movimiento de Google promoverá aún más la aplicación y el desarrollo de la tecnología de IA, para que más desarrolladores y empresas puedan disfrutar de la conveniencia e innovación traída por la IA.