Alibaba открыла исходный код своей модели создания и редактирования текста изображений AnyText, которая может генерировать произвольный точный текст на изображениях и поддерживает несколько языков, включая китайский. Пользователи могут настраивать положение текста, интенсивность изображения и другие параметры для создания изображений, отвечающих их потребностям. Что еще более важно, Alibaba одновременно открыла исходный код набора данных AnyWord-3M, который содержит 3 миллиона пар «изображение-текст», охватывающих несколько языков, таких как китайский, английский, японский и корейский. Это значительно улучшит обработку текста. возможности модели AnyText. Способствуют дальнейшему развитию технологии генерации текста-изображения.
Модель Alibaba для создания и редактирования текста изображений с открытым исходным кодом AnyText может генерировать любой точный текст в изображениях, включая китайский. Эта модель поддерживает индивидуальное планирование таких параметров, как расположение текста и интенсивность изображений, и генерирует изображения Wensheng, соответствующие требованиям. В то же время Alibaba также открыла исходный код набора данных AnyWord-3M для улучшения текстовых возможностей AnyText. Этот набор данных содержит 3 миллиона пар «изображение-текст» на китайском, английском, японском, корейском и других языках.
Открытый исходный код модели AnyText и выпуск набора данных AnyWord-3M знаменуют собой значительный прогресс Alibaba в области генерации текста-изображения, предоставляя исследователям и разработчикам мощные инструменты и ресурсы и, как ожидается, будут способствовать технологическим инновациям и их применению в этой области. Реализовано для дальнейшего повышения эффективности и точности обработки изображений и текста.