세계가 여전히 회복되고 있지만 연구는 특히 인공 지능 분야에서 열광적 인 속도를 늦추지 않았습니다. 더, 윤리적 측면, 중요한 편견, 거버넌스, 투명성 등과 같은 많은 중요한 측면이 올해 강조되었습니다. 인공 지능과 인간의 두뇌에 대한 우리의 이해와 AI와의 연관성은 끊임없이 발전하여 가까운 미래에 우리의 삶의 질을 향상시키는 유망한 응용 프로그램을 보여줍니다. 그럼에도 불구하고, 우리는 어떤 기술을 적용하기로 선택 해야하는지 조심해야합니다.
"과학은 우리가해야 할 일, 우리가 할 수있는 일만 말할 수 없습니다."
-Jean-Paul Sartre, 존재 및 아무것도
다음은 올해의 가장 흥미로운 연구 논문입니다. 요컨대, 명확한 비디오 설명,보다 심층적 인 기사에 대한 링크 및 코드 (해당되는 경우)로 출시 날짜에 따라 AI 및 데이터 과학의 최신 혁신 목록이 선별되었습니다. 읽기를 즐기십시오!
각 용지에 대한 전체 참조는이 저장소의 끝에 나열되어 있습니다. 이 저장소를별로 표시하여 최신 상태로 유지하십시오! 켈
관리자 : LouISpB01
내 뉴스 레터 구독 - AI의 최신 업데이트는 매주 설명되었습니다.
이 저장소에 추가하기 위해 놓친 흥미로운 용지를 저에게 메시지를 보내주십시오.
Twitter @whats_ai 또는 linkedin @louis (AI) bouchard에 저를 태그하십시오. 목록을 공유하면!
명확한 비디오 설명,보다 심층적 인 기사에 대한 링크 및 코드가 포함 된 2021 년 상위 10 개 CV 간행물의 선별 된 목록.
2021 년 10 대 컴퓨터 비전 논문
? 내 작업을 지원 하고 W & B (무료로)를 사용하여 ML 실험을 추적하고 팀과의 작업을 재현 가능하거나 협력하게하려면이 안내서를 따르면 시도해 볼 수 있습니다! 여기의 대부분의 코드는 Pytorch 기반이므로 Pytorch에서 W & B를 사용하기위한 빠른 스타트 가이드가 공유하기에 가장 흥미 로울 것이라고 생각했습니다.
이 빠른 가이드를 따르고 코드 또는 아래의 저장소에서 동일한 W & B 라인을 사용하고 W & B 계정에서 모든 실험을 자동으로 추적하도록하십시오! 설치하는 데 5 분 이상 걸리지 않으며 나와 같이 인생을 바꿀 것입니다! 관심이있는 경우 하이퍼 파라미터 스윕을 사용하기위한보다 고급 가이드가 있습니다. :)
? 이 저장소와 내가하고있는 일을 후원 해 주신 Headits & Biases에 감사드립니다.이 링크를 사용하고 W & B를 시도하는 분들 덕분에!
OpenAi는 텍스트 캡션에서 이미지를 생성 할 수있는 네트워크를 성공적으로 교육했습니다. GPT-3 및 Image GPT와 매우 유사하며 놀라운 결과를 생성합니다.
Google은 수정 된 Stylegan2 아키텍처를 사용하여 온라인 피팅 룸을 만들었습니다. 이는 자신의 이미지 만 사용하려는 바지 나 셔츠를 자동으로 시도 할 수 있습니다.
TL; DR : 그들은 GAN의 효율과 컨 컨벤션 접근 방식을 변압기의 표현성과 결합하여 의미 적으로 유도 된 고품질 이미지 합성을위한 강력하고 시간 효율적인 방법을 생성했습니다.
인간 능력에서 AI 연구 커뮤니티에 대한보다 일반적이고 신뢰할 수있는 AI & 10 질문에 대한 영감을 얻습니다.
Odei Garcia-Garin et al. 바르셀로나 대학교 (University of Barcelona)는 공중 이미지에서 떠 다니는 쓰레기를 감지하고 정량화 할 수있는 딥 러닝 기반 알고리즘을 개발했습니다. 또한 해수면 이미지 내에서 Floating Marine Macro-Litter 또는 FMML이라고하는이 쓰레기를 식별 할 수있는 웹 지향적 인 응용 프로그램을 만들었습니다.
객체의 사진을 찍고 3D로 만들어서 만들고있는 영화 나 비디오 게임에 삽입하거나 그림을 위해 3D 장면에 삽입하는 것이 얼마나 멋진 지 상상해보십시오.
그들은 기본적으로 강력한 StyleGan2 아키텍처에서 변압기의주의 메커니즘을 활용하여 더욱 강력하게 만듭니다!
주간 뉴스 레터를 구독하고 2022 년 AI의 새로운 간행물을 최신 상태로 유지하십시오!
AI 프로필에서 바로 스 와이프 하시겠습니까? 실제 사람을 기계와 구별 할 수 있습니까? 이것은이 연구에서 데이트 앱에서 AI-Made-Up 사람들을 사용하는 것이 밝혀졌습니다.
트랜스포머는 컴퓨터 비전에서 CNN을 대체합니까? 5 분도 채 안되어 SWIN Transformer라는 새로운 용지로 변압기 아키텍처가 컴퓨터 비전에 어떻게 적용되는지 알 수 있습니다.
ganverse3d라는이 유망한 모델은 사용자 정의하고 애니메이션 할 수있는 3D 그림을 만들기위한 이미지 만 있으면됩니다!
"비전 응용, 그들의 성공 및 우리가 해결해야 할 한계를위한 깊은 그물에 대한 모든 것을 공개적으로 공유 할 것입니다."
View Synthesis : Perpetual View Generation의 다음 단계는 목표가 이미지를 가져 와서 풍경을 탐색하는 것입니다!
이 AI 구동 신경 인터페이스를 통해, 수족은 생명과 같은 손재주와 직관성으로 신경 보호 손을 제어 할 수 있습니다.
추가 된 새로운 배경의 조명을 기반으로 모든 초상화를 올바르게 재 해석하십시오. 사진의 배경을 바꾸고 싶었지만 현실적으로 보이셨습니까? 이미 그것을 시도했다면 이미 간단하지 않다는 것을 알고 있습니다. 집에서 자신의 사진을 찍어 해변의 배경을 바꿀 수는 없습니다. 그것은 단지 나쁘고 현실적이지 않은 것처럼 보입니다. 누구든지 몇 초 만에“포토샵”이라고 말할 것입니다. 영화 및 전문 비디오의 경우 고품질 이미지를 재현하려면 완벽한 조명과 아티스트가 필요하며 비용이 많이 듭니다. 자신의 사진으로 그렇게 할 수있는 방법은 없습니다. 아니면 할 수 있습니까?
입력으로 짧은 비디오에서만 움직이는 인간 또는 동물의 3D 모델을 생성합니다. 이것은 입력으로 짧은 비디오에서만 움직이는 인간 또는 동물의 3D 모델을 생성하는 새로운 방법입니다. 실제로, 이것은 이것이 홀수 모양이라는 것을 이해하고, 움직일 수는 있지만, 여전히 많은 객체가 아니라 여전히 하나의 "객체"이기 때문에 여전히 첨부해야합니다 ...
이 AI는 비디오 게임에 라이브로 적용하고 모든 프레임을 훨씬 더 자연스럽게 변환 할 수 있습니다. Intel Labs의 연구원들은이 논문을 Enhancing Photorealism Enhancement라는이 논문을 발표했습니다. 그리고 이것이 "또 다른 간"이라고 생각한다면, 비디오 게임의 사진을 입력으로 찍고 자연 세계의 스타일에 따라 그것을 바꾸려면 마음을 바꾸겠습니다. 그들은이 모델에서 2 년 동안 매우 강력하게 만들었습니다. 비디오 게임에 라이브로 적용하고 모든 프레임을 훨씬 더 자연스럽게 변환 할 수 있습니다. 게임 그래픽에 훨씬 적은 노력을 기울일 수있는 가능성을 상상하고 안정적이고 완전하게 만들고이 모델을 사용하여 스타일을 향상시킵니다 ...
2021 년에 깊은 가짜를 발견하는 방법. 인공 지능을 사용하여 Deepfakes를 찾기 위해 미군 기술 혁신.
그들이 항상 거기에있는 것처럼 보이지만, 최초의 현실적인 Deepfake는 2017 년까지 나타나지 않았습니다. 그것은 오늘날의 동일한 누군가의 동일한 사본으로 자동 생성 된 가짜 이미지와 비슷한 가짜 이미지에서 사운드와 함께 나타났습니다.
현실은 실제 비디오 나 그림과 더 이상 깊은 파이크의 차이를 볼 수 없다는 것입니다. 그렇지 않은 것에서 어떻게 진짜인지 말할 수 있습니까? AI가 완전히 생성 할 수있는 경우 오디오 파일이나 비디오 파일을 법정에서 어떻게 법정에서 사용할 수 있습니까? 글쎄,이 새로운 논문은 이러한 질문에 대한 답을 제공 할 수 있습니다. 그리고 여기서 답은 인공 지능의 사용 일 수 있습니다. “내가 볼 때 믿게 될 것”이라는 말은 곧“AI가 그것을 믿으라고 말할 때 믿을 것이다…
이 새로운 기계 학습 기반 접근 방식을 사용하여 실시간으로 4K 이미지에 모든 스타일을 적용하십시오!
이 기사는 그 자체로 새로운 기술에 관한 것이 아닙니다. 대신, 그것은 새롭고 흥미 진진한 Gans의 적용에 관한 것입니다. 실제로, 당신은 제목을 보았고 클릭 베이트가 아니 었습니다. 이 ai는 머리카락을 옮기기 위해 변화에 전념하기 전에 어떻게 생겼는지 확인할 수 있습니다…
이 새로운 Facebook AI 모델은 같은 스타일에 따라 자신의 언어로 이미지에서 직접 텍스트를 변환하거나 편집 할 수 있습니다!
언어를 사용하지 않는 다른 나라에서 휴가 중이라고 상상해보십시오. 당신은 현지 식당을 시험해보고 싶지만 그들의 메뉴는 당신이 말하지 않는 언어로되어 있습니다. 메뉴 항목이나 지시 사항을 보았을 때이 상황에 직면했고 글이 쓰여진 내용을 이해할 수 없으므로 대부분의 사람들이 이미이 상황에 직면했기 때문에 이것이 상상하기가 어렵지 않을 것이라고 생각합니다. 글쎄, 2020 년에는 휴대 전화를 꺼내고 Google이 보는 것을 번역 할 것입니다. 2021 년에는 더 이상 Google 번역을 열 필요조차없고 번역하기 위해 하나씩 보는 것을 작성하려고 노력할 필요조차 없습니다. 대신 Facebook AI 의이 새로운 모델을 사용하여 이미지의 모든 텍스트를 자신의 언어로 번역 할 수 있습니다…
더 많은 연구 논문을 읽으려면 더 많은 연구 논문을 찾고 읽는 가장 좋은 팁을 공유하는 기사를 읽는 것이 좋습니다.
이 모델은 사진을 찍고, 어떤 입자가 움직일 수 있는지 이해하고, 무한 루프로 현실적으로 애니메이션을하면서 나머지 사진을 완전히 보존하면서도 여전히 놀라운 비디오를 만들어냅니다 ...
수정 된 GAN 아키텍처를 사용하면 배경이나 다른 객체에 영향을 미치지 않고 이미지의 객체를 이동할 수 있습니다!
OpenAI 의이 새로운 모델이 Word에서 코드를 생성하는 방법을 알아보십시오!
장치에서 개인적으로 실행되는 여러 머신 러닝 기반 알고리즘을 사용하여 Apple을 사용하면 iOS 15에서 이미지와 비디오를 정확하게 큐 레이트하고 구성 할 수 있습니다.
이미지 생성을 위해 복잡한 GAN 및 변압기 아키텍처에 작별 인사를하십시오! Chenling Meng et al. 의이 새로운 방법. Stanford University와 Carnegie Mellon University는 사용자 기반 입력에서 새로운 이미지를 생성 할 수 있습니다. 예술적 기술이없는 나 같은 사람들조차도 이제 빠른 스케치에서 아름다운 이미지 나 수정을 생성 할 수 있습니다 ...
스케치 후 이미지를 생성하여 Gans 훈련을 더 쉽게 만들 수 있습니다! 실제로이 새로운 방법으로, 당신은 당신이 제공 할 수있는 가장 간단한 유형의 지식을 기반으로 Gan의 출력을 제어 할 수 있습니다 : 손으로 그린 스케치.
테슬라 자동차가 어떻게 다른 차량으로 도로를 볼 수있을뿐만 아니라 도로를 탐색 할 수 있는지 궁금하다면, 이것은 당신이 기다리고있는 비디오입니다. 며칠 전 Tesla의 AI 감독 인 Andrej Karpathy와 다른 사람들이 Tesla의 자동 조종 장치가 8 개의 카메라를 통해 도로에서 내비게이션 프로세스에 이르기까지 Tesla의 자동 조종 장치가 어떻게 작동하는지 제시 한 첫 번째 Tesla AI Day였습니다.
AI는 이미지를 생성 한 후 많은 두뇌와 시행 착오를 사용하여 이미지를 생성 할 수 있으므로 연구원들은 특정 스타일에 따라 결과를 제어 할 수 있습니다. 이제이 새로운 모델을 사용하면 텍스트 만 사용하여 수행 할 수 있습니다!
타임 렌스는 비디오의 프레임 사이에서 입자의 움직임을 이해하여 눈에도 볼 수없는 속도로 실제로 일어난 일을 재구성 할 수 있습니다. 실제로, 그것은 우리의 지능형 전화와 다른 모델이 전에는 도달 할 수 없었던 결과를 달성합니다!
주간 뉴스 레터를 구독하고 2022 년 AI의 새로운 간행물을 최신 상태로 유지하십시오!
비디오를 편집하고 싶었던 적이 있습니까?
누군가를 제거하거나 추가하고, 배경을 변경하고, 조금 더 오래 지속되거나, 압축하거나 스트레칭하지 않고 특정 종횡비에 맞게 해상도를 변경하십시오. 이미 광고 캠페인을 실행 한 사람들에게는 AB 테스트를 위해 비디오의 변형을 갖고 가장 잘 작동하는 것을보고 싶었습니다. 글쎄, Niv Haim et al. 단일 비디오와 HD 에서이 모든 작업을 수행하는 데 도움이 될 수 있습니다!
실제로 간단한 비디오를 사용하면 고품질 비디오를 위해 몇 초 또는 몇 분 안에 방금 언급 한 작업을 수행 할 수 있습니다. 기본적으로 생각하는 비디오 조작 또는 비디오 생성 응용 프로그램에 사용할 수 있습니다. 그것은 심지어 모든면에서 GAN을 능가하고 딥 러닝 멋진 연구를 사용하지 않으며 거대하고 비현실적인 데이터 세트가 필요하지 않습니다! 그리고 가장 좋은 점은이 기술이 고해상도 비디오에 확장 가능하다는 것입니다.
DeepMind는 50 명 이상의 전문가 기상 학자들이 평가 한 정확도와 유용성을 위해 널리 사용되는 Nowcasting 방법보다 성능이 우수한 생식 모델을 방금 출시했습니다! 그들의 모델은 다음 2 시간 내에 침전을 예측하는 데 중점을두고 놀랍게도 잘 달성합니다. 생성 모델이므로 예측을 단순히 예측하는 대신 예측을 생성합니다. 기본적으로 미래의 레이더 데이터를 생성하기 위해 과거의 레이더 데이터를 가져옵니다. 따라서 과거의 시간과 공간 구성 요소를 모두 사용하여 가까운 시일 내에 어떻게 보일지 생성 할 수 있습니다.
이것을 Snapchat 필터와 동일하게 볼 수 있으며, 얼굴을 잡고 수정 된 새로운 얼굴을 생성 할 수 있습니다. 그러한 생성 모델을 훈련 시키려면 인간의 얼굴과 생성하려는 얼굴의 종류에서 많은 데이터가 필요합니다. 그런 다음 몇 시간 동안 훈련 된 매우 유사한 모델을 사용하면 강력한 생성 모델이 있습니다. 이러한 종류의 모델은 종종 교육 목적으로 Gans 아키텍처를 사용한 다음 독립적으로 발전기 모델을 사용합니다.
비디오 나 TV 쇼를 조정 한 적이 있고 배우는 완전히 들리지 않았거나 음악이 너무 시끄 럽습니까? 글쎄, 칵테일 파티 문제라고도 불리는이 문제는 다시는 일어나지 않을 수 있습니다. Mitsubishi와 Indian University는 올바른 사운드 트랙을 식별하는이 작업을 다루는 새로운 데이터 세트뿐만 아니라 새로운 모델을 게시했습니다. 예를 들어, 동일한 오디오 클립을 가져 가면 음악을 너무 크게 크게 크게 떨어 뜨 렸습니다. 음악보다 연설에 더 중요한 오디오 트랙을 올리거나 내릴 수 있습니다.
여기서 문제는 영화 장면이나 일부 사운드 균형이 잘되지 않는 YouTube 비디오와 같은 복잡한 음향 장면에서 독립적 인 사운드 소스를 분리하는 것입니다. 때로는 음악 재생이나 폭발 또는 배경의 다른 주변 소리 때문에 일부 배우들을들을 수 없습니다. 글쎄, 사운드 트랙에서 다른 범주를 성공적으로 분리한다면, 다른 모든 배우들을 올바르게들을 수 있도록 음악을 조금 내려 놓는 것과 같이 그중 하나만 올리거나 내릴 수도 있음을 의미합니다. 이것이 바로 연구원들이 달성 한 것입니다.
당신이 찍은 많은 사진에서 3D 모델이나 단순히 유동적 인 비디오를 생성하고 싶다고 상상해보십시오. 글쎄, 이제 가능합니다! 나는 너무 많이 포기하고 싶지 않지만 결과는 단순히 놀랍고 직접 확인해야합니다!
왼쪽 의이 멋진 Tiktok 드로잉 스타일과 같은 사진 스타일을 찍고 선택한 새로운 사진에 적용하는 꿈을 꾸었습니까? 글쎄, 나는했지만 결코 더 쉬운 일이 아니 었습니다. 실제로, 당신은 텍스트만으로 그것을 달성 할 수 있으며이 새로운 방법과 모든 사람이 사용할 수있는 Google Colab 노트북을 사용하여 지금 시도 할 수 있습니다 (참조 참조). 복사하려는 스타일의 사진을 찍고 생성하려는 텍스트를 입력하면이 알고리즘이 새 그림을 생성합니다! 위의 결과를 되돌아보십시오. 결과는 매우 인상적입니다. 특히 한 줄의 텍스트로 만들어 졌다고 생각하는 경우!
당신이 정말로 좋아하는 이미지를 가지고 있었고 왼쪽 아래 의이 이미지처럼 보이는 작은 버전 만 찾을 수 있었습니까? 이 이미지를 찍어 두 번 좋아 보이게 할 수 있다면 얼마나 시원할까요? 훌륭하지만 4 ~ 8 배 더 고화질을 만들 수 있다면 어떨까요? 이제 우리는 이야기하고 있습니다.
여기서 우리는 이미지의 해상도를 4 배로 향상 시켰습니다. 즉, 자세한 내용을 위해 높이와 너비 픽셀이 4 배 더 높아져 훨씬 더 매끄럽게 보입니다. 가장 좋은 점은 이것이 몇 초 안에 완성되어 완전히 자동으로 수행되며 거의 모든 이미지와 함께 작동한다는 것입니다. 아, 그리고 당신은 그들이 사용할 수있는 데모로 직접 사용할 수 있습니다 ...
빠른 드래프트에서 기능을 제어하면 이미지의 나머지 부분을 동일하게 유지하려는 내용 만 편집합니다! NVIDIA, MIT 및 UOFT의 GAN을 기반으로 한 Sketches 모델에서 SOTA 이미지 편집.
이 모델은 Citynerf라고하며 Nerf에서 자라며 이전에는 채널에서 다룹니다. NERF는 Radiance Fields와 기계 학습을 사용하여 이미지에서 3D 모델을 구성하는 최초의 모델 중 하나입니다. 그러나 Nerf는 그렇게 효율적이지 않으며 단일 규모로 작동합니다. 여기서 Citynerf는 위성 및지면 이미지에 동시에 적용되어 모든 시점에 대해 다양한 3D 모델 스케일을 생성합니다. 간단히 말해서, 그들은 Nerf를 도시 규모로 가져옵니다. 하지만 어떻게?
우리는 AI가 GAN을 사용하여 다른 이미지에서 이미지를 생성하는 것을 보았습니다. 그런 다음 텍스트를 사용하여 의심스러운 이미지를 생성 할 수있는 모델이있었습니다. 2021 년 초, Dall-e는 출판되어 이미지를 텍스트를 가이드로 연결하는 모델 인 Clip을 사용하여 텍스트 입력에서 이미지를 생성하려는 모든 시도를 꺾었습니다. 이미지 캡션이라는 매우 유사한 작업은 정말 간단하게 들릴 수 있지만 실제로는 복잡합니다. 기계가 이미지에 대한 자연스러운 설명을 생성하는 능력입니다. 이미지에서 보이는 객체를 단순히 태그하는 것은 쉽지만 단일 2 차원 사진에서 무슨 일이 일어나고 있는지 이해하는 것은 또 다른 도전이며,이 새로운 모델은 매우 잘 작동합니다 ...
더 많은 논문을 읽고 더 넓은 견해를 갖고 싶다면 2020 : 2020 : 놀라운 AI 논문으로 가득 찬 1 년을 보장하는 또 다른 훌륭한 저장소가 있습니다. -2022 년 AI의 새로운 간행물과 함께!
Twitter @whats_ai 또는 linkedin @louis (AI) bouchard에 저를 태그하십시오. 목록을 공유하면!
[1] A. Ramesh et al., 제로 샷 텍스트-이미지 생성, 2021. Arxiv : 2102.12092
[2] Lewis, Kathleen M et al., (2021), Vogue : Stylegan 보간 최적화에 의한 시도.
[3] 고해상도 이미지 합성을위한 변압기, Esser et al., 2020.
[4] AI, Booch et al., (2020), https://arxiv.org/abs/2010.06002에서 빠르고 느리게 생각합니다.
[5] Odei Garcia-Garin et al., 항공 이미지에서 부유 식 해양 매크로 라이터의 자동 탐지 및 정량화 : R, Environmental Pollution, https://doi.org/의 웹 응용 프로그램에 연결된 새로운 딥 러닝 접근법 소개 10.1016/j.envpol.2021.116490.
[6] Rematas, K., Martin-Brualla, R. 및 Ferrari, V.,“Sharf : 단일보기의 형태 조건 방사선 필드”, (2021), https://arxiv.org/abs/2102.08860
[7] Drew A. Hudson과 C. Lawrence Zitnick, 생성 적대 변압기, (2021)
[8] Sandra Bryant et al.,“우리는 인공 지능에 데이트 프로파일을 만들도록 요청했습니다. UNSW 시드니 블로그, (2021), (2021).
[9] Liu, Z. et al., 2021,“Swin Transformer : 변속 된 Wind
[10] Zhang, Y., Chen, W., Ling, H., Gao, J., Zhang, Y., Torralba, A. and Fidler, S., 2020. 이미지 Gans는 역 그래픽 및 해석 가능에 대한 다른 렌더링을 충족합니다. 3D 신경 렌더링. ARXIV PREPRINT ARXIV : 2010.09125.
[11] Yuille, AL 및 Liu, C., 2021. Deep Nets : 비전을 위해 무엇을 해본 적이 있습니까?. International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.
[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.
[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.
[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.
[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.
[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.
[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.
[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.
[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos
[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.
[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).
[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 ,,, http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.
[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.
[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.
[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.
[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).
[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.
[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.
[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734