ニューラル スタイル転送は、コンテンツ イメージとスタイル参照イメージ (有名な画家のアートワークなど) の 2 つのイメージを取得し、それらをブレンドして出力イメージがコンテンツ イメージのように見えるようにするために使用される最適化手法ですが、「ペイント」されています。スタイル参考画像のスタイルで。
これは、コンテンツ画像のコンテンツ統計とスタイル参照画像のスタイル統計に一致するように出力画像を最適化することによって実装されます。これらの統計は、畳み込みネットワークを使用して画像から抽出されます。
ノートブックを実行するには、このリポジトリのクローンを作成し、正しいディレクトリで Jupyter ノートブック サーバーを起動し、 style_transfer_gan.ipynb
というノートブックを開きます。このノートブックには、スタイル転送の仕組みに関するチュートリアルのコードも含まれています。このリポジトリ内のデータのコードは全体に散在しています。
StarGan コードを確認するには、 StarGAN_v2_celeb_face_synthesizer.ipynb
というノートブックを開いてください。
私たちが使用したアート スタイルは、 art-styles
フォルダーにあり、次のものが含まれます。
オリジナル スタイルcelebrity-faces/male/wesley-snipes.jpg
転送ノートブックには 3 つの有名人celebrity-faces/female/lady-gaga.jpg
celebrity-faces/male/the-weeknd.jpg
を使用しました。
StarGAN ノートブックには、Celeb A-HQ データセットから厳選した写真を使用しました。これらはcelebrity-faces/
ディレクトリに残っている写真です。
このセクションでは、 style_transfer_gan.ipynb
の作業について説明します。ニューラル スタイル転送がさまざまな顔でどのように実行されるかを理解するために、モデルに複数のコンテンツ画像 (顔) をフィードし、肌の色調と顔の構造に十分な違いが得られると判断した 3 つを選択しました。各顔について、上記の 10 個のアート スタイルすべてをスタイルの参照画像として使用しました。私たちが気づいた一般的な傾向は、人物の顔と画像の背景に似たスタイルの方が、大きく異なるスタイルよりも良い結果を生み出すということでした。
ザ・ウィークエンドでは、彼が整形手術を受けた後に撮影された画像を選択し、それによって彼の顔の構造が大幅に変化しました。彼の場合、キュビスムやシュルレアリスムなど、標準とは同様に異なるスタイルの方が、古典主義のようなスタイルよりも良い結果を生み出すことがわかりました(下記を参照)。
シュルレアリスムと古典主義の対立がザ・ウィークエンドの顔に現れる
同様に、ウェズリー・スナイプスの肌の色調はより暗く、元の画像の背景の色もより落ち着いているため、同様の色調のスタイルの方が正確です。以下のキュビズムとフォービズムの結果を比較してください。
ウェズリー・スナイプスの顔に現れるキュビズム対フォービズムの結果
しかし、レディー・ガガの結果は全体的にはるかに均等でした。ほとんどのスタイルでは、大きな損失を被ることなく、彼女の顔の一部の詳細をキャプチャすることができました。ご覧のとおり、ウェズリー・スナイプスの顔ではうまく機能しなかった野獣主義が、ここでははるかにうまく機能します。
フォーヴシム vs. 古典主義がレディー・ガガの顔にもたらす
一般的に、レディー・ガガの顔がより良い結果をもたらした可能性がある理由はたくさんありますが、可能性の高い説明は、スタイル伝達モデルのトレーニングに使用されたデータです。トレーニング時にモデルにさらに白い面が提供された場合、テストでは白い面を使用した方がパフォーマンスが向上する可能性があります。
このセクションでは、 StarGAN_v2_celeb_face_synthesizer.ipynb
の作業について説明します。 Clova AI によって開発された画像変換モデルである StarGAN v2 は、異なる画像間のマッピングを学習します。私たちは、CelebA-HQ データセットで事前トレーニングされた Star GAN ネットワークと、ソース画像データセットとして、さまざまな性別、肌の色、顔の特徴、顔/身体の修正 (タトゥー、整形) の一連の有名人の顔を使用しました。 CelebA-HQ データセットを参照画像データセットとして使用します。ソース データセットは、女性と男性の 2 つのドメインに分割されました。
以下は、合成するために選択したソース画像のリストです。
ロシェル・ヒュームズ | アリアナ・グランデ | レディー・ガガ | ジェニファー・ローレンス |
---|---|---|---|
クリス・ヘムズワース | マイク・タイソン | ドナルド・トランプ | ザ・ウィークエンド | ウェスリー・スナイプス |
---|---|---|---|---|
選択したすべての画像を、顔を中心にして画像の大部分を占めるように、画像を可能な限り約 1:1 の比率に切り取って変換しました。次に、Clova AI が提供する組み込みツールを使用して、さらに細かい回転とトリミングを行うために画像を微調整しました。最後に、これらの微調整画像を事前トレーニング済みの StarGAN ネットワークに供給し、合成された出力画像を生成しました。
私たちの結果は、力強い顎のラインや唇などの独特の顔の特徴が、性別や肌の色を超えて、生成/出力画像に反映されていることを示しました。ザ・ウィークエンドのような顔の修正(整形手術など)を受けた顔の場合、生成された画像でもこれらの特徴がはっきりと残っていることに気づきました。しかし、生成された画像は予想通りそれほどリアルではありませんでした。ヘアスタイル、メイクアップ、ひげ、肌の色などの高度な特徴は参照画像から踏襲されています。ただし、タトゥーなどの他の特徴はソース画像から保存されているように見えます。同様に、モデルはほとんどの出力画像でソース画像のポーズとアイデンティティを保存しました。
実験の結果を以下に示します