Проект | АрXив | Бумага | Huggingface-демо | Colab-демо
2024.02 Протестируйте модель, используя собственные образцы почерка:
Демо-версия Huggingface теперь доступна и работает.
Демо-версия Colab для индивидуального рукописного ввода
Демонстрация Colab для набора данных IAM/CVL
Анкан Кумар Бхуния, Салман Хан, Хишам Чолаккал, Рао Мухаммад Анвер, Фахад Шахбаз Хан и Мубарак Шах
Аннотация: Мы предлагаем новый подход к созданию стилизованных изображений рукописного текста на основе преобразователя, HWT, который стремится изучить как запутанность стиля и содержания, так и глобальные и локальные шаблоны стиля письма. Предлагаемый HWT фиксирует отношения дальнего и ближнего действия в примерах стилей с помощью механизма самообслуживания, тем самым кодируя как глобальные, так и локальные шаблоны стилей. Кроме того, предлагаемый HWT на основе преобразователя включает в себя внимание кодера-декодера, которое обеспечивает перепутывание стиля и контента путем сбора представления стиля каждого символа запроса. Насколько нам известно, мы первыми представили генеративную сеть на основе трансформаторов для генерации стилизованного рукописного текста. Предлагаемый нами HWT генерирует реалистичные рукописные текстовые изображения и значительно превосходит современные технологии, продемонстрированные посредством обширных качественных, количественных и человеческих оценок. Предлагаемый HWT может обрабатывать текст произвольной длины и любой желаемый стиль письма за несколько кадров. Кроме того, наш HWT хорошо обобщает сложный сценарий, когда во время обучения не видны ни слова, ни стиль письма, генерируя реалистичные стили рукописных текстовых изображений.
Питон 3.7
ПайТорч >= 1,4
Пожалуйста, смотрите INSTALL.md
для установки необходимых библиотек. Вы можете изменить содержимое файла mytext.txt
, чтобы визуализировать рукописный ввод во время обучения.
Загрузите файлы и модели набора данных с https://drive.google.com/file/d/16g9zgysQnWk7-353_tMig92KsZsrcM6k/view?usp=sharing и разархивируйте папку files
. Короче говоря, запустите следующие строки в терминале bash.
git clone https://github.com/ankanbhunia/Handwriting-Transformerscd Handwriting-Transformers pip install --upgrade --no-cache-dir gdown gdown --id 16g9zgysQnWk7-353_tMig92KsZsrcM6k && разархивируйте files.zip && rm files.zip
Чтобы начать обучение модели: запустите
python train.py
Если вы хотите использовать wandb
, установите его и измените свой auth_key в файле train.py
(ln:4).
Вы можете изменить различные параметры в файле params.py
.
Вы можете обучать модель в любом пользовательском наборе данных, кроме IAM и CVL. Процесс включает в себя создание файла dataset_name.pickle
и размещение его в папке files
. Структура dataset_name.pickle
представляет собой простой словарь Python.
{'train': [{writer_1:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_2:[{'img': <PIL.IMAGE> , 'label':<str_label>},...]},...], 'test': [{writer_3:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_4:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]},...], }
docker run -it -p 7860:7860 --platform=linux/amd64 registry.hf.space/ankankbhunia-hwt:latest python app.py
Пожалуйста, проверьте папку results
в репозитории, чтобы увидеть более качественный анализ. Также ознакомьтесь с демо-версией Colab, чтобы попробовать свой собственный текст и стиль письма.
Результаты реконструкции с использованием предложенного HWT по сравнению с GANwriting и Davis et al. Мы используем тот же текст, что и в примерах стилей, для создания рукописных изображений.
Если вы используете код для своих исследований, пожалуйста, цитируйте нашу статью:
@InProceedings{Bhunia_2021_ICCV, author = {Bhunia, Ankan Kumar and Khan, Salman and Cholakkal, Hisham and Anwer, Rao Muhammad and Khan, Fahad Shahbaz and Shah, Mubarak}, title = {Handwriting Transformers}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, month = {October}, year = {2021}, pages = {1086-1094} }