項目| ArXiv | 紙| Huggingface-示範 | Colab-演示
2024.02使用自訂手寫樣本測試模型:
Huggingface 演示現已推出並正在運行
自訂手寫內容的 Colab 演示
IAM/CVL 資料集的 Colab 演示
Ankan Kumar Bhunia、Salman Khan、Hisham Cholakkal、Rao Muhammad Anwer、Fahad Shahbaz Khan 和 Mubarak Shah
摘要:我們提出了一種新穎的基於 Transformer 的風格手寫文字圖像生成方法 HWT,該方法致力於學習風格內容糾纏以及全局和局部書寫風格模式。所提出的 HWT 透過自註意力機制捕捉樣式範例中的長程和短程關係,從而對全局和局部樣式模式進行編碼。此外,所提出的基於 Transformer 的 HWT 包括編碼器-解碼器注意力,它透過收集每個查詢字元的風格表示來實現風格-內容糾纏。據我們所知,我們是第一個引入基於變壓器的生成網路來產生樣式手寫文字的人。我們提出的 HWT 生成逼真風格的手寫文字影像,並且顯著優於透過廣泛的定性、定量和基於人類的評估所證明的最先進技術。所提出的 HWT 可以在幾個設定中處理任意長度的文字和任何所需的書寫風格。此外,我們的 HWT 很好地推廣到了具有挑戰性的場景,在訓練過程中單字和寫作風格都看不見,產生逼真的手寫文字圖像。
Python 3.7
PyTorch >=1.4
請參閱INSTALL.md
以安裝所需的庫。您可以變更檔案mytext.txt
中的內容,以在訓練時視覺化產生的筆跡。
從 https://drive.google.com/file/d/16g9zgysQnWk7-353_tMig92KsZsrcM6k/view?usp=sharing 下載資料集檔案和模型並解壓縮到files
夾內。簡而言之,在 bash 終端機中運行以下幾行。
git clone https://github.com/ankanbhunia/Handwriting-Transformerscd 手寫-Transformers pip install --upgrade --no-cache-dir gdown gdown --id 16g9zgysQnWk7-353_tMig92KsZsrcM6k && 解壓縮檔.zip && rm 檔.zip
開始訓練模型:運行
python train.py
如果您想使用wandb
請安裝它並更改train.py
檔案中的 auth_key (ln:4)。
您可以在params.py
檔案中變更不同的參數。
您可以在 IAM 和 CVL 之外的任何自訂資料集中訓練模型。該過程涉及創建dataset_name.pickle
檔案並將其放置在files
夾中。 dataset_name.pickle
的結構是一個簡單的 python 字典。
{'train': [{writer_1:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_2:[{'img': <PIL.IMAGE> , '標籤':<str_label>},...]},...], 'test': [{writer_3:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_4:[{'img': <PIL.IMAGE>, '標籤':<str_label>},...]},...], }
docker run -it -p 7860:7860 --platform=linux/amd64 registry.hf.space/ankankbhunia-hwt:latest python app.py
請檢查儲存庫中的results
資料夾以查看更多定性分析。另外,請查看 Colab 演示,嘗試使用您自己的自訂文字和寫作風格
使用所提出的 HWT 的重建結果與 GANwriting 和 Davis 等人的比較。我們使用與樣式範例中相同的文字來產生手寫圖像。
如果您使用該程式碼進行研究,請引用我們的論文:
@InProceedings{Bhunia_2021_ICCV, author = {Bhunia, Ankan Kumar and Khan, Salman and Cholakkal, Hisham and Anwer, Rao Muhammad and Khan, Fahad Shahbaz and Shah, Mubarak}, title = {Handwriting Transformers}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, month = {October}, year = {2021}, pages = {1086-1094} }