프로젝트 | ArXiv | 종이 | Huggingface 데모 | Colab 데모
2024.02 맞춤 필기 샘플을 사용하여 모델 테스트:
이제 Huggingface 데모를 사용할 수 있으며 실행 중입니다.
맞춤 필기체를 위한 Colab 데모
IAM/CVL 데이터세트용 Colab 데모
안칸 쿠마르 부니아, 살만 칸, 히샴 촐락칼, 라오 무하마드 안웨르, 파하드 샤바즈 칸, 무바라크 샤
개요: 우리는 스타일-콘텐츠 얽힘과 글로벌 및 로컬 글쓰기 스타일 패턴을 모두 학습하기 위해 노력하는 새로운 변환기 기반 스타일의 손글씨 텍스트 이미지 생성 접근 방식인 HWT를 제안합니다. 제안된 HWT는 self-attention 메커니즘을 통해 스타일 예제 내의 장거리 및 단거리 관계를 포착하여 전역 및 로컬 스타일 패턴을 모두 인코딩합니다. 또한 제안된 변환기 기반 HWT는 각 쿼리 문자의 스타일 표현을 수집하여 스타일-콘텐츠 얽힘을 가능하게 하는 인코더-디코더 어텐션으로 구성됩니다. 우리가 아는 한, 우리는 스타일이 있는 손글씨 텍스트 생성을 위한 변환기 기반 생성 네트워크를 최초로 도입했습니다. 우리가 제안한 HWT는 사실적인 스타일의 손으로 쓴 텍스트 이미지를 생성하고 광범위한 정성적, 정량적 및 인간 기반 평가를 통해 입증된 최첨단 기술보다 훨씬 뛰어납니다. 제안된 HWT는 몇 장의 설정에서 임의 길이의 텍스트와 원하는 쓰기 스타일을 처리할 수 있습니다. 또한 HWT는 훈련 중에 단어와 쓰기 스타일이 모두 보이지 않는 어려운 시나리오를 잘 일반화하여 사실적인 스타일의 손으로 쓴 텍스트 이미지를 생성합니다.
파이썬 3.7
파이토치 >=1.4
필수 라이브러리 설치에 대해서는 INSTALL.md
참조하세요. 훈련 중에 생성된 필기를 시각화하기 위해 mytext.txt
파일의 콘텐츠를 변경할 수 있습니다.
https://drive.google.com/file/d/16g9zgysQnWk7-353_tMig92KsZsrcM6k/view?usp=sharing에서 데이터세트 파일과 모델을 다운로드하고 files
폴더 안에 압축을 풉니다. 즉, bash 터미널에서 다음 줄을 실행하십시오.
git clone https://github.com/ankanbhunia/Handwriting-Transformerscd 필기-변압기 pip install --upgrade --no-cache-dir gdown gdown --id 16g9zgysQnWk7-353_tMig92KsZsrcM6k && unzip files.zip && rm files.zip
모델 학습을 시작하려면 다음을 실행하세요.
python train.py
wandb
사용하려면 이를 설치하고 train.py
파일(ln:4)에서 auth_key를 변경하세요.
params.py
파일에서 다양한 매개변수를 변경할 수 있습니다.
IAM 및 CVL 이외의 사용자 지정 데이터 세트에서 모델을 교육할 수 있습니다. 이 프로세스에는 dataset_name.pickle
파일을 생성하고 files
폴더에 배치하는 작업이 포함됩니다. dataset_name.pickle
의 구조는 간단한 Python 사전입니다.
{'기차': [{writer_1:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_2:[{'img': <PIL.IMAGE> , '라벨':<str_label>},...]},...], '테스트': [{writer_3:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_4:[{'img': <PIL.IMAGE>, '레이블':<str_label>},...]},...], }
docker run -it -p 7860:7860 --platform=linux/amd64 registry.hf.space/ankankbhunia-hwt:latest python app.py
더 많은 정성적 분석을 보려면 저장소의 results
폴더를 확인하세요. 또한 Colab 데모를 확인하여 나만의 맞춤 텍스트와 쓰기 스타일을 사용해 보세요.
GANwriting 및 Davis et al.과 비교하여 제안된 HWT를 사용한 재구성 결과. 스타일 예제와 동일한 텍스트를 사용하여 손으로 쓴 이미지를 생성합니다.
연구에 코드를 사용하는 경우 다음 논문을 인용해 주세요.
@InProceedings{Bhunia_2021_ICCV, author = {Bhunia, Ankan Kumar and Khan, Salman and Cholakkal, Hisham and Anwer, Rao Muhammad and Khan, Fahad Shahbaz and Shah, Mubarak}, title = {Handwriting Transformers}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, month = {October}, year = {2021}, pages = {1086-1094} }