AnyText de código abierto de Alibaba: puede generar cualquier texto preciso en imágenes, ¡y admite chino!

Autor：Eve Cole Fecha de actualización：2025-01-22 08:32:01

Alibaba ha abierto su modelo de generación y edición de texto de imágenes AnyText, que puede generar texto arbitrario y preciso en imágenes y admite varios idiomas, incluido el chino. Los usuarios pueden personalizar la posición del texto, la intensidad de la imagen y otros parámetros para generar imágenes que satisfagan sus necesidades. Más importante aún, Alibaba también ha abierto simultáneamente el conjunto de datos AnyWord-3M, que contiene 3 millones de pares de imagen y texto, que cubren varios idiomas, como chino, inglés, japonés y coreano. Esto mejorará enormemente el procesamiento de texto. capacidades del modelo AnyText Promover el mayor desarrollo de la tecnología de generación de texto de imagen.

El modelo de edición y generación de texto de imágenes de código abierto de Alibaba, AnyText, puede generar cualquier texto preciso en imágenes, incluido el chino. Este modelo admite la planificación personalizada de parámetros como la ubicación del texto y la intensidad de las imágenes, y genera imágenes Wensheng que cumplen con los requisitos. Al mismo tiempo, Alibaba también abrió el conjunto de datos AnyWord-3M para mejorar las capacidades de texto de AnyText. Este conjunto de datos contiene 3 millones de pares de imágenes y texto, que abarcan chino, inglés, japonés, coreano y otros idiomas.

El código abierto del modelo AnyText y el lanzamiento del conjunto de datos AnyWord-3M marcan el progreso significativo de Alibaba en el campo de la generación de texto con imágenes, brindando a investigadores y desarrolladores herramientas y recursos poderosos, y se espera que promueva la innovación y aplicación tecnológica en este Implementado para mejorar aún más la eficiencia y precisión del procesamiento de imágenes y texto.