Bei der neuronalen Stilübertragung handelt es sich um eine Optimierungstechnik, bei der zwei Bilder – ein Inhaltsbild und ein Stilreferenzbild (z. B. ein Kunstwerk eines berühmten Malers) – aufgenommen und zusammengefügt werden, sodass das Ausgabebild wie das Inhaltsbild aussieht, nur „gemalt“. im Stil des Stil-Referenzbildes.
Dies wird umgesetzt, indem das Ausgabebild so optimiert wird, dass es mit den Inhaltsstatistiken des Inhaltsbilds und den Stilstatistiken des Stilreferenzbilds übereinstimmt. Diese Statistiken werden mithilfe eines Faltungsnetzwerks aus den Bildern extrahiert.
Um das Notebook auszuführen, klonen Sie bitte dieses Repository, starten Sie einen Jupyter-Notebook-Server im richtigen Verzeichnis und öffnen Sie das Notebook mit dem Namen style_transfer_gan.ipynb
. Dieses Notizbuch enthält auch Code für ein Tutorial zur Funktionsweise der Stilübertragung. Der Code für die Daten in diesem Repo ist überall eingestreut.
Um den StarGan-Code anzuzeigen, öffnen Sie bitte das Notizbuch mit dem Namen StarGAN_v2_celeb_face_synthesizer.ipynb
.
Die von uns verwendeten Kunststile finden Sie im Ordner art-styles
und umfassen Folgendes:
Für das ursprüngliche Style-Transfer-Notizbuch haben wir drei Promi-Gesichter verwendet: celebrity-faces/male/the-weeknd.jpg
, celebrity-faces/male/wesley-snipes.jpg
und celebrity-faces/female/lady-gaga.jpg
.
Für das StarGAN-Notizbuch haben wir eine Auswahl von Fotos aus dem Celeb A-HQ-Datensatz verwendet. Dies sind die restlichen Fotos im celebrity-faces/
Verzeichnis.
In diesem Abschnitt wird die Arbeit in style_transfer_gan.ipynb
untersucht. Um zu verstehen, wie die Übertragung neuronaler Stile auf verschiedene Gesichter funktioniert, haben wir mehrere Inhaltsbilder (Gesichter) durch unser Modell geleitet und drei ausgewählt, von denen wir entschieden haben, dass sie genügend Unterschiede im Hautton und in der Gesichtsstruktur bieten. Für jedes Gesicht haben wir alle 10 der oben aufgeführten Kunststile als Stilreferenzbilder verwendet. Der allgemeine Trend, den wir bemerkten, war, dass Stile, die dem Gesicht der Person und ihrem Bildhintergrund ähnlicher waren, bessere Ergebnisse lieferten als Stile, die sehr unterschiedlich waren.
Für The Weeknd haben wir ein Bild ausgewählt, das nach einer plastischen Operation aufgenommen wurde und ihm dadurch eine deutlich veränderte Gesichtsstruktur verleiht. In seinem Fall haben wir gesehen, dass Stile, die gleichermaßen von der Norm abwichen, wie der Kubismus oder der Surrealismus, bessere Ergebnisse lieferten als ein Stil wie der Klassizismus (siehe unten).
Surrealismus vs. Klassizismus prägen das Bild von The Weeknd
Da der Hautton von Wesley Snipes dunkler ist und auch die Farben im Hintergrund seines Originalbilds gedämpfter sind, waren Stile mit ähnlichen Farbtönen genauer. Vergleichen Sie unten die Ergebnisse des Kubismus und des Fauvismus:
Kubismus vs. Fauvismus Ergebnisse auf dem Gesicht von Wesley Snipes
Die Ergebnisse von Lady Gaga waren jedoch durchweg weitaus ausgeglichener. Bei den meisten Stilen gelang es dennoch, einige Details ihres Gesichts einzufangen, ohne dass es zu großen Verlusten kam. Wie Sie sehen, funktioniert der Fauvismus – der bei Wesley Snipes‘ Gesicht nicht so gut funktionierte – hier viel besser.
Fauvsim vs. Klassizismus-Ergebnisse auf Lady Gagas Gesicht
Es gibt viele Gründe dafür, dass Lady Gagas Gesicht im Allgemeinen zu besseren Ergebnissen hätte führen können, aber eine wahrscheinliche Erklärung sind die Daten, die zum Trainieren des Stilübertragungsmodells verwendet wurden. Wenn dem Modell im Training mehr weiße Gesichter zur Verfügung gestellt wurden, wird es beim Testen wahrscheinlich eine bessere Leistung mit weißen Gesichtern erbringen.
In diesem Abschnitt wird die Arbeit in StarGAN_v2_celeb_face_synthesizer.ipynb
untersucht. StarGAN v2, das von Clova AI entwickelte Bildübersetzungsmodell, lernt die Zuordnung zwischen verschiedenen Bildern. Als Quellbilddatensatz verwendeten wir ein Star-GAN-Netzwerk, das mit dem CelebA-HQ-Datensatz vorab trainiert wurde, sowie eine Reihe von Prominentengesichtern verschiedener Geschlechter, Hauttöne, Gesichtszüge und Gesichts-/Körpermodifikationen (Tätowierungen und plastische Chirurgie). und der CelebA-HQ-Datensatz als unser Referenzbilddatensatz. Unser Quelldatensatz wurde in zwei Domänen aufgeteilt: weiblich und männlich
Im Folgenden finden Sie eine Liste der Quellbilder, die wir für die Synthese ausgewählt haben.
Rochelle Humes | Ariana Grande | Lady Gaga | Jennifer Lawrence |
---|---|---|---|
Chris Hemsworth | Mike Tyson | Donald Trump | Das Weeknd | Wesley Snipes |
---|---|---|---|---|
Wir haben alle ausgewählten Bilder transformiert, indem wir das Bild auf ein Verhältnis von etwa 1:1 zugeschnitten haben, wobei das Gesicht in der Mitte lag und einen großen Teil des Bildes einnahm. Anschließend haben wir das Bild mithilfe des von Clova AI bereitgestellten integrierten Tools für eine zusätzliche Feindrehung und Zuschneidung verfeinert. Schließlich haben wir diese Feinabstimmungsbilder dem vorab trainierten StarGAN-Netzwerk zugeführt und synthetisierte Ausgabebilder generiert.
Unsere Ergebnisse zeigten, dass ausgeprägte Gesichtsmerkmale wie kräftige Kieferpartien und Lippen über verschiedene Geschlechter und Hauttöne hinweg in die generierten/ausgegebenen Bilder übertragen wurden. Bei Gesichtern wie dem von The Weeknd, die Gesichtsveränderungen unterzogen wurden (z. B. plastische Chirurgie), ist uns aufgefallen, dass diese Merkmale auch in den generierten Bildern deutlich erkennbar blieben. Allerdings waren die erzeugten Bilder nicht so realistisch. Wie erwartet, wurden die wichtigsten Merkmale wie Frisur, Make-up, Bart und Hautton den Referenzbildern entnommen. Allerdings schienen andere Merkmale wie Tätowierungen vom Quellbild erhalten zu bleiben. Ebenso behielt das Modell die Pose und Identität der Quellbilder in den meisten Ausgabebildern bei
Das Ergebnis unseres Experiments ist unten dargestellt