プロジェクト | アーシーブ | 紙 | ハグフェイスデモ | Colab デモ
2024.02カスタム手書きサンプルを使用してモデルをテストします。
Huggingface デモが利用可能になり、実行中です
カスタム手書きの Colab デモ
IAM/CVL データセットの Colab デモ
アンカン・クマール・ブーニア、サルマン・カーン、ヒシャム・チョラッカル、ラオ・ムハマド・アンワー、ファハド・シャバズ・カーン、ムバラク・シャー
要約:我々は、スタイルとコンテンツのもつれだけでなく、グローバルおよびローカルな書き方パターンの両方を学習することを目的とした、新しいトランスフォーマーベースのスタイル付き手書きテキスト画像生成アプローチ、HWT を提案します。提案された HWT は、セルフ アテンション メカニズムを通じてスタイル サンプル内の長距離および短距離の関係をキャプチャし、それによってグローバル スタイル パターンとローカル スタイル パターンの両方をエンコードします。さらに、提案されたトランスフォーマーベースの HWT は、各クエリ文字のスタイル表現を収集することによってスタイルとコンテンツのもつれを可能にするエンコーダー/デコーダー アテンションを備えています。私たちの知る限り、私たちはスタイル付きの手書きテキストを生成するためのトランスフォーマーベースの生成ネットワークを初めて導入しました。私たちが提案する HWT は、リアルなスタイルの手書きテキスト画像を生成し、広範な定性的、定量的、人間ベースの評価を通じて実証された最先端技術を大幅に上回ります。提案された HWT は、任意の長さのテキストと任意の書き込みスタイルを数ショット設定で処理できます。さらに、私たちの HWT は、トレーニング中に単語と書き方の両方が見えないという困難なシナリオをうまく一般化し、現実的なスタイルの手書きテキスト画像を生成します。
Python 3.7
PyTorch >=1.4
必要なライブラリをインストールするには、 INSTALL.md
参照してください。ファイルmytext.txt
の内容を変更して、トレーニング中に生成された手書き文字を視覚化できます。
https://drive.google.com/file/d/16g9zgysQnWk7-353_tMig92KsZsrcM6k/view?usp=sharing からデータセット ファイルとモデルをダウンロードし、 files
フォルダー内で解凍します。つまり、bash ターミナルで次の行を実行します。
git clone https://github.com/ankanbhunia/Handwriting-Transformerscd Handwriting-Transformers pip install --upgrade --no-cache-dir gdown gdown --id 16g9zgysQnWk7-353_tMig92KsZsrcM6k && unzip files.zip && rm files.zip
モデルのトレーニングを開始するには、次のコマンドを実行します。
python train.py
wandb
を使用したい場合は、それをインストールし、 train.py
ファイル (ln:4) の auth_key を変更してください。
params.py
ファイル内のさまざまなパラメータを変更できます。
IAM と CVL 以外のカスタム データセットでモデルをトレーニングできます。このプロセスでは、 dataset_name.pickle
ファイルを作成し、それをfiles
フォルダー内に配置します。 dataset_name.pickle
の構造は、単純な Python 辞書です。
{'train': [{writer_1:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_2:[{'img': <PIL.IMAGE> , 'label':<str_label>},...]},...], 'test': [{writer_3:[{'img': <PIL.IMAGE>, 'label':<str_label>},...]}, {writer_4:[{'img': <PIL.IMAGE>, 'ラベル':<str_label>},...]},...], }
docker run -it -p 7860:7860 --platform=linux/amd64 registry.hf.space/ankankbhunia-hwt:latest python app.py
さらに定性的な分析を確認するには、リポジトリ内のresults
フォルダーを確認してください。また、colab デモをチェックして、独自のカスタム テキストと書き方を試してください。
GANwriting および Davis らと比較した、提案された HWT を使用した再構成結果。スタイル例と同じテキストを使用して手書き画像を生成します。
研究にコードを使用する場合は、論文を引用してください。
@InProceedings{Bhunia_2021_ICCV, author = {Bhunia, Ankan Kumar and Khan, Salman and Cholakkal, Hisham and Anwer, Rao Muhammad and Khan, Fahad Shahbaz and Shah, Mubarak}, title = {Handwriting Transformers}, booktitle = {Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV)}, month = {October}, year = {2021}, pages = {1086-1094} }