신경 스타일 전송은 두 개의 이미지(콘텐츠 이미지와 스타일 참조 이미지(예: 유명 화가의 작품))를 가져와 함께 혼합하여 출력 이미지가 콘텐츠 이미지처럼 보이도록 하는 데 사용되는 최적화 기술입니다. 스타일 참조 이미지 스타일로.
이는 콘텐츠 이미지의 콘텐츠 통계와 스타일 참조 이미지의 스타일 통계가 일치하도록 출력 이미지를 최적화하여 구현됩니다. 이러한 통계는 컨벌루션 네트워크를 사용하여 이미지에서 추출됩니다.
노트북을 실행하려면 이 저장소를 복제하고 올바른 디렉터리에서 Jupyter 노트북 서버를 시작한 다음 style_transfer_gan.ipynb
라는 노트북을 엽니다. 이 노트북에는 스타일 전송 작동 방식에 대한 튜토리얼용 코드도 포함되어 있습니다. 이 저장소의 데이터에 대한 코드는 전체에 분산되어 있습니다.
StarGan 코드를 보려면 StarGAN_v2_celeb_face_synthesizer.ipynb
라는 노트북을 열어보세요.
우리가 사용한 아트 스타일은 art-styles
폴더에서 찾을 수 있으며 다음을 포함합니다:
우리는 원래 스타일 전송 노트북에 세 명의 유명인 얼굴을 사용했습니다: celebrity-faces/male/the-weeknd.jpg
, celebrity-faces/male/wesley-snipes.jpg
및 celebrity-faces/female/lady-gaga.jpg
.
StarGAN 노트북의 경우 Celeb A-HQ 데이터세트에서 엄선된 사진을 사용했습니다. 이것은 celebrity-faces/
디렉토리에 남아 있는 사진입니다.
이 섹션에서는 style_transfer_gan.ipynb
의 작업을 살펴보겠습니다. 다양한 얼굴에서 신경 스타일 전송이 어떻게 수행되는지 이해하기 위해 우리는 모델을 통해 여러 콘텐츠 이미지(얼굴)를 제공하고 피부색과 얼굴 구조에 충분한 차이를 제공할 것으로 판단되는 3개를 선택했습니다. 각 얼굴에 대해 위에 나열된 10가지 아트 스타일을 모두 스타일 참조 이미지로 사용했습니다. 우리가 알아차린 일반적인 경향은 사람의 얼굴과 이미지 배경과 더 유사한 스타일이 매우 다른 스타일보다 더 나은 결과를 산출한다는 것입니다.
위켄드의 경우 성형수술을 받은 후 찍은 사진을 선택해 얼굴 구조가 확연히 달라졌다. 그의 경우, 우리는 입체파나 초현실주의와 같이 표준과 똑같이 다른 스타일이 고전주의와 같은 스타일보다 더 나은 결과를 낳는다는 것을 보았습니다(아래 참조).
The Weeknd의 얼굴에 나타난 초현실주의 대 고전주의 결과
마찬가지로 웨슬리 스나입스의 피부톤은 더 어둡고, 원본 이미지의 배경색도 더 은은한 느낌을 주기 때문에 비슷한 톤의 스타일이 더 정확했습니다. 아래에서 입체파와 야수파의 결과를 비교해 보세요.
Wesley Snipes의 얼굴에 나타난 입체파 대 야수파 결과
그러나 레이디 가가(Lady Gaga)의 결과는 전반적으로 훨씬 더 균일했습니다. 대부분의 스타일은 여전히 큰 손실 없이 그녀의 얼굴의 일부 세부 사항을 캡처할 수 있었습니다. 보시다시피 Wesley Snipes의 얼굴에는 잘 어울리지 않았던 야수파가 여기서는 훨씬 더 잘 작동합니다.
레이디 가가(Lady Gaga)의 얼굴에 나타난 Fauvsim 대 고전주의 결과
일반적으로 레이디 가가의 얼굴이 더 나은 결과를 낳을 수 있었던 데는 여러 가지 이유가 있지만 가능성 있는 설명은 스타일 전달 모델을 훈련하는 데 사용된 데이터입니다. 모델이 훈련 중에 더 많은 흰색 얼굴을 제공했다면 테스트에서는 흰색 얼굴을 사용하여 더 나은 성능을 발휘할 가능성이 높습니다.
이 섹션에서는 StarGAN_v2_celeb_face_synthesizer.ipynb
의 작업을 살펴보겠습니다. Clova AI가 개발한 이미지 번역 모델인 StarGAN v2는 서로 다른 이미지 간의 매핑을 학습합니다. 우리는 CelebA-HQ 데이터 세트와 다양한 성별, 피부색, 얼굴 특징 및 얼굴/신체 수정(문신 및 성형 수술)에 따른 유명인 얼굴 세트로 사전 훈련된 Star GAN 네트워크를 소스 이미지 데이터 세트로 사용했습니다. CelebA-HQ 데이터세트를 참조 이미지 데이터세트로 사용합니다. 우리의 소스 데이터 세트는 여성과 남성의 두 가지 도메인으로 분할되었습니다.
다음은 우리가 합성하기로 선택한 소스 이미지 목록입니다.
로셸 흄스 | 아리아나 그란데 | 레이디 가가 | 제니퍼 로렌스 |
---|---|---|---|
![]() | ![]() | ![]() | ![]() |
크리스 헴스워스 | 마이크 타이슨 | 도널드 트럼프 | 위켄드 | 웨슬리 스나입스 |
---|---|---|---|---|
![]() | ![]() | ![]() | ![]() | ![]() |
얼굴을 중심으로 이미지를 최대한 약 1:1 비율로 자르고 이미지의 많은 부분을 차지하는 방식으로 선택한 모든 이미지를 변환했습니다. 그런 다음 Clova AI에서 제공하는 내장 도구를 사용하여 추가 미세 회전 및 자르기를 위해 이미지를 미세 조정했습니다. 마지막으로 이러한 미세 조정 이미지를 사전 훈련된 StarGAN 네트워크에 공급하고 합성된 출력 이미지를 생성했습니다.
우리의 결과는 강한 턱선과 입술과 같은 뚜렷한 얼굴 특징이 생성/출력 이미지에 다양한 성별과 피부색에 걸쳐 전파되는 것을 보여주었습니다. The Weeknd와 같이 얼굴 수정(예: 성형 수술)을 받은 얼굴의 경우 생성된 이미지에서도 이러한 특징이 뚜렷하게 남아 있음을 확인했습니다. 그러나 생성된 이미지는 그다지 사실적이지 않았습니다. 예상대로 헤어스타일, 메이크업, 수염, 피부톤 등의 높은 수준의 특징이 참조 이미지에서 따라옵니다. 그러나 문신과 같은 다른 특징은 원본 이미지에서 보존된 것처럼 보였습니다. 마찬가지로 모델은 대부분의 출력 이미지에서 원본 이미지의 포즈와 정체성을 보존했습니다.
실험 결과는 아래와 같습니다.