Alors que le monde se rétablit toujours, la recherche n'a pas ralenti son rythme frénétique, en particulier dans le domaine de l'intelligence artificielle. De plus, de nombreux aspects importants ont été mis en évidence cette année, comme les aspects éthiques, les biais importants, la gouvernance, la transparence et bien plus encore. L'intelligence artificielle et notre compréhension du cerveau humain et de son lien avec l'IA évoluent constamment, montrant des applications prometteuses améliorant la qualité de notre vie dans un avenir proche. Pourtant, nous devons être prudents avec la technologie que nous choisissons d'appliquer.
"La science ne peut pas nous dire ce que nous devons faire, seulement ce que nous pouvons faire."
- Jean-Paul Sartre, être et néant
Voici les articles de recherche les plus intéressants de l'année, au cas où vous auriez manqué l'un d'eux. En bref, il s'agit de la liste organisée des dernières percées dans l'IA et la science des données par date de sortie avec une explication vidéo claire, un lien vers un article plus approfondi et du code (le cas échéant). Profitez de la lecture!
La référence complète à chaque article est répertoriée à la fin de ce référentiel. Star ce référentiel pour rester à jour! ️
HEUPTENER: Louisfb01
Abonnez-vous à ma newsletter - les dernières mises à jour de l'IA expliquées chaque semaine.
N'hésitez pas à m'envoyer un message intéressant que j'ai peut-être manqué pour ajouter à ce référentiel.
Tagez-moi sur Twitter @Whats_ai ou LinkedIn @Louis (What's Ai) Bouchard si vous partagez la liste!
Une liste organisée des 10 principales publications CV en 2021 avec une explication vidéo claire, un lien vers un article plus approfondi et du code.
Les 10 meilleurs papiers de vision informatique de 2021
? Si vous souhaitez soutenir mon travail et utiliser W&B (gratuitement) pour suivre vos expériences ML et rendre votre travail reproductible ou collaborer avec une équipe, vous pouvez l'essayer en suivant ce guide! Étant donné que la majeure partie du code ici est basée sur Pytorch, nous avons pensé qu'un guide QuickStart pour l'utilisation de W&B sur Pytorch serait le plus intéressant à partager.
Suivez ce guide rapide, utilisez les mêmes lignes W&B dans votre code ou l'un des références ci-dessous, et faites suivre toutes vos expériences automatiquement dans votre compte W&B! Il ne faut pas plus de 5 minutes pour s'installer et changera votre vie comme elle l'a fait pour moi! Voici un guide plus avancé pour utiliser des balayages hyperparamètres si vous êtes intéressé :)
? Merci à des poids et des préjugés pour avoir parrainé ce référentiel et le travail que j'ai fait, et merci à chacun d'entre vous en utilisant ce lien et en essayant W&B!
OpenAI a réussi à former un réseau capable de générer des images à partir de légendes de texte. Il est très similaire à GPT-3 et à l'image GPT et produit des résultats incroyables.
Google a utilisé une architecture Modified Stylegan2 pour créer une salle de raccord en ligne où vous pouvez automatiquement essayer tous les pantalons ou chemises que vous souhaitez utiliser uniquement une image de vous-même.
TL; DR: Ils ont combiné l'efficacité des Gans et des approches convolutionnelles avec l'expressivité des transformateurs pour produire une méthode puissante et économe en temps pour la synthèse d'image de haute qualité guidée par sémantiquement.
S'inspirant des capacités humaines vers une question d'IA et 10 plus générale et digne de confiance pour la communauté de la recherche sur l'IA.
Odei Garcia-Garin et al. de l'Université de Barcelone a développé un algorithme basé sur l'apprentissage en profondeur capable de détecter et de quantifier les ordures flottantes à partir d'images aériennes. Ils ont également fait une application orientée vers le Web permettant aux utilisateurs d'identifier ces ordures, appelées macro-macro-liberes flottantes, ou FMML, dans les images de la surface de la mer.
Imaginez à quel point ce serait cool de prendre une image d'un objet et de le faire en 3D pour insérer dans le film ou le jeu vidéo que vous créez ou dans une scène 3D pour une illustration.
Ils exploitent essentiellement le mécanisme d'attention des Transformers dans la puissante architecture Stylegan2 pour la rendre encore plus puissante!
Abonnez-vous à ma newsletter hebdomadaire et restez à jour avec de nouvelles publications en IA pour 2022!
Souhaitez-vous glisser directement sur un profil IA? Pouvez-vous distinguer un véritable humain d'une machine? C'est ce que cette étude révèle en utilisant des personnes faites sur l'IA sur les applications de rencontres.
Les transformateurs remplaceront-ils CNNS dans la vision par ordinateur? En moins de 5 minutes, vous saurez comment l'architecture du transformateur peut être appliquée à la vision par ordinateur avec un nouveau papier appelé Swin Transformer.
Ce modèle prometteur appelé Ganverse3d n'a besoin que d'une image pour créer une figure 3D qui peut être personnalisée et animée!
"Je vais tout partager ouvertement sur les réseaux profonds pour les applications de vision, leurs succès et les limitations que nous devons aborder."
La prochaine étape de la synthèse de la vue: la génération de vue perpétuelle, où l'objectif est de prendre une image pour y voler et d'explorer le paysage!
Avec cette interface nerveuse alimentée par l'IA, l'amputé peut contrôler une main neuroprosthétique avec une dextérité et une intuitivité en forme de vie.
Refléchissez correctement tout portrait en fonction de l'éclairage du nouveau fond que vous ajoutez. Avez-vous déjà voulu changer l'arrière-plan d'une image mais l'a-t-il en train d'être réaliste? Si vous avez déjà essayé, vous savez déjà que ce n'est pas simple. Vous ne pouvez pas simplement prendre une photo de vous dans votre maison et changer l'arrière-plan pour une plage. Il a l'air mauvais et pas réaliste. N'importe qui dira simplement «c'est photoshoppé» dans une seconde. Pour les films et les vidéos professionnelles, vous avez besoin de l'éclairage parfait et des artistes pour reproduire une image de haute qualité, et c'est super cher. Il n'y a aucun moyen que vous puissiez le faire avec vos propres photos. Ou pouvez-vous?
Générez des modèles 3D d'humains ou d'animaux se déplaçant à partir d'une courte vidéo en entrée. Il s'agit d'une nouvelle méthode pour générer des modèles 3D d'humains ou d'animaux se déplaçant d'une courte vidéo en entrée. En effet, il comprend en fait qu'il s'agit d'une forme étrange, qu'elle peut bouger, mais doit toujours rester attachée car il s'agit toujours d'un "objet" et pas seulement de nombreux objets ensemble ...
Cette IA peut être appliquée en direct au jeu vidéo et transformer chaque cadre pour être beaucoup plus naturel. Les chercheurs d'Intel Labs viennent de publier cet article intitulé Amélioration de l'amélioration du photoréalisme. Et si vous pensez que cela peut être "juste un autre Gan", prenant une photo du jeu vidéo comme une entrée et le changeant en suivant le style du monde naturel, permettez-moi de changer d'avis. Ils ont travaillé sur ce modèle pendant deux ans pour le rendre extrêmement robuste. Il peut être appliqué en direct au jeu vidéo et transformer chaque cadre pour être beaucoup plus naturel. Imaginez simplement les possibilités où vous pouvez mettre beaucoup moins d'efforts dans le graphique du jeu, rendre la super stable et complète, puis améliorer le style en utilisant ce modèle ...
Comment repérer un faux profond en 2021. Breakthrough US Army Technology utilisant l'intelligence artificielle pour trouver Deepfakes.
Bien qu'ils semblent avoir toujours été là, le tout premier deepfake réaliste n'apparaissait pas avant 2017. Il est passé de la toute première ressemblant à de fausses images générées automatiquement à la copie identique d'aujourd'hui de quelqu'un sur des vidéos, avec du son.
La réalité est que nous ne pouvons plus voir la différence entre une vraie vidéo ou une image et unfake Deep. Comment pouvons-nous savoir ce qui est réel de ce qui ne l'est pas? Comment les fichiers audio ou les fichiers vidéo peuvent-ils être utilisés devant le tribunal comme preuve si une IA peut les générer entièrement? Eh bien, ce nouvel article peut fournir des réponses à ces questions. Et la réponse ici peut à nouveau être l'utilisation de l'intelligence artificielle. Le dicton «Je le croirai quand je le verrai» pourrait bientôt changer pour «Je le croirai quand l'IA me dira de le croire…»
Appliquez n'importe quel style à votre image 4K en temps réel en utilisant cette nouvelle approche basée sur l'apprentissage automatique!
Cet article ne concerne pas une nouvelle technologie en soi. Au lieu de cela, il s'agit d'une application nouvelle et passionnante de Gans. En effet, vous avez vu le titre, et ce n'était pas un clic. Cette IA peut transférer vos cheveux pour voir à quoi cela ressemblerait avant de s'engager dans le changement…
Ce nouveau modèle Facebook AI peut traduire ou modifier le texte directement dans l'image dans votre propre langue, en suivant le même style!
Imaginez que vous êtes en vacances dans un autre pays où vous ne parlez pas la langue. Vous voulez essayer un restaurant local, mais leur menu est dans la langue que vous ne parlez pas. Je pense que ce ne sera pas trop difficile à imaginer car la plupart d'entre nous ont déjà fait face à cette situation, que vous voyiez des éléments ou des directions de menu et que vous ne pouvez pas comprendre ce qui est écrit. Eh bien, en 2020, vous retireriez votre téléphone et Google Translate ce que vous voyez. En 2021, vous n'avez même plus besoin d'ouvrir Google Translate et d'essayer d'écrire ce que vous voyez un par un pour le traduire. Au lieu de cela, vous pouvez simplement utiliser ce nouveau modèle par Facebook AI pour traduire chaque texte de l'image dans votre propre langue…
Si vous souhaitez également lire plus de documents de recherche, je vous recommande de lire mon article où je partage mes meilleurs conseils pour trouver et lire plus d'articles de recherche.
Ce modèle prend une image, comprend quelles particules sont censées bouger et les anime de manière réaliste dans une boucle infinie tout en conservant le reste de l'image en créant entièrement des vidéos incroyables comme celle-ci ...
À l'aide d'une architecture GAn modifiée, ils peuvent déplacer des objets dans l'image sans affecter l'arrière-plan ou les autres objets!
Découvrez comment ce nouveau modèle d'Openai génère du code à partir de mots!
En utilisant plusieurs algorithmes basés sur l'apprentissage automatique fonctionnant en privé sur votre appareil, Apple vous permet de gérer et d'organiser avec précision vos images et vidéos sur iOS 15.
Dites adieu aux architectures complexes de Gan et de Transformateur pour la génération d'images! Cette nouvelle méthode de Chenling Meng et al. De l'Université de Stanford et de l'Université Carnegie Mellon peuvent générer de nouvelles images à partir de toute entrée basée sur l'utilisateur. Même les gens comme moi avec aucune compétence artistique peuvent désormais générer de belles images ou des modifications à partir de croquis rapides ...
Rendez la formation Gans plus facile pour tout le monde en générant des images après un croquis! En effet, avec cette nouvelle méthode, vous pouvez contrôler les sorties de votre GAN en fonction du type de connaissance le plus simple que vous puissiez lui fournir: des croquis dessinés à la main.
Si vous vous demandez comment une voiture Tesla peut non seulement voir mais naviguer sur les routes avec d'autres véhicules, c'est la vidéo que vous attendiez. Il y a quelques jours, il y a quelques jours a été la première journée de Tesla AI où Andrej Karpathy, directrice de l'IA à Tesla, et d'autres ont présenté comment le pilote automatique de Tesla fonctionne à partir de l'acquisition d'images à travers leurs huit caméras au processus de navigation sur les routes.
L'IA pourrait générer des images, alors, en utilisant beaucoup de cerveaux et d'essais et d'erreurs, les chercheurs pourraient contrôler les résultats en suivant des styles spécifiques. Maintenant, avec ce nouveau modèle, vous pouvez le faire en utilisant uniquement du texte!
Les chronologies peuvent comprendre le mouvement des particules entre les cadres d'une vidéo pour reconstruire ce qui s'est réellement passé à une vitesse, même nos yeux ne peuvent pas voir. En fait, il obtient des résultats que nos téléphones intelligents et aucun autre modèle ne pourraient auparavant!
Abonnez-vous à ma newsletter hebdomadaire et restez à jour avec de nouvelles publications en IA pour 2022!
Avez-vous déjà voulu éditer une vidéo?
Supprimer ou ajouter quelqu'un, modifier l'arrière-plan, faire durer un peu plus longtemps ou modifier la résolution pour s'adapter à un rapport d'aspect spécifique sans le comprimer ou l'étirer. Pour ceux d'entre vous qui ont déjà mené des campagnes publicitaires, vous vouliez certainement avoir des variations de vos vidéos pour les tests AB et voir ce qui fonctionne le mieux. Eh bien, cette nouvelle recherche de Niv Haim et al. Peut vous aider à faire tout cela à partir d'une seule vidéo et en HD!
En effet, en utilisant une vidéo simple, vous pouvez effectuer toutes les tâches que je viens de mentionner en quelques secondes ou quelques minutes pour des vidéos de haute qualité. Vous pouvez essentiellement l'utiliser pour toute application de manipulation vidéo ou de génération de vidéos que vous avez en tête. Il surpasse même les Gans de toutes les manières et n'utilise aucune recherche fantaisie en profondeur ni nécessite un ensemble de données énorme et peu pratique! Et la meilleure chose est que cette technique est évolutive aux vidéos haute résolution.
DeepMind vient de publier un modèle génératif capable de surpasser les méthodes de transaction largement utilisées dans 89% des situations pour sa précision et son utilité évaluées par plus de 50 météorologues experts! Leur modèle se concentre sur la prédiction des précipitations dans les 2 prochaines heures et y parvient étonnamment. Il s'agit d'un modèle génératif, ce qui signifie qu'il générera les prévisions au lieu de simplement les prédire. Il prend essentiellement des données radar du passé pour créer de futures données radar. Ainsi, en utilisant à la fois des composants de temps et spatiaux du passé, ils peuvent générer à quoi il ressemblera dans un avenir proche.
Vous pouvez voir cela comme le même que les filtres Snapchat, en prenant votre visage et en générant un nouveau visage avec des modifications dessus. Pour former un modèle aussi génératif, vous avez besoin d'un tas de données des visages humains et du type de visage que vous souhaitez générer. Ensuite, en utilisant un modèle très similaire formé pendant de nombreuses heures, vous aurez un puissant modèle génératif. Ce type de modèle utilise souvent des architectures Gans à des fins de formation, puis utilise le modèle de générateur indépendamment.
Avez-vous déjà à l'écoute d'une vidéo ou d'une émission de télévision et les acteurs étaient complètement inaudibles, ou la musique était beaucoup trop bruyante? Eh bien, ce problème, également appelé le problème du cocktail, peut ne plus jamais se reproduire. L'Université Mitsubishi et Indiana vient de publier un nouveau modèle ainsi qu'un nouvel ensemble de données s'attaquant à cette tâche d'identifier la bonne bande sonore. Par exemple, si nous prenons le même clip audio, nous venons de couru avec la musique trop forte, vous pouvez simplement monter ou descendre la piste audio que vous souhaitez donner plus d'importance au discours que la musique.
Le problème ici est d'isoler toute source sonore indépendante d'une scène acoustique complexe comme une scène de film ou une vidéo YouTube où certains sons ne sont pas bien équilibrés. Parfois, vous n'entendez tout simplement pas entendre certains acteurs à cause du jeu de la musique ou des explosions ou d'autres sons ambiants en arrière-plan. Eh bien, si vous isolez avec succès les différentes catégories dans une bande sonore, cela signifie que vous ne pouvez également augmenter ou tomber qu'un seul, comme refuser un peu la musique pour entendre correctement tous les autres acteurs. C'est exactement ce que les chercheurs ont réalisé.
Imaginez que vous souhaitez générer un modèle 3D ou simplement une vidéo fluide à partir d'un tas de photos que vous avez prises. Eh bien, c'est maintenant possible! Je ne veux pas trop en donner, mais les résultats sont tout simplement incroyables et vous devez le vérifier par vous-même!
Avez-vous déjà rêvé de prendre le style d'une image, comme ce style de dessin tiktok cool à gauche, et de l'appliquer à une nouvelle image de votre choix? Eh bien, je l'ai fait, et cela n'a jamais été aussi facile à faire. En fait, vous pouvez même y parvenir à partir du texte uniquement et l'essayer dès maintenant avec cette nouvelle méthode et leur cahier Google Colab disponible pour tout le monde (voir références). Prenez simplement une photo du style que vous souhaitez copier, entrez le texte que vous souhaitez générer, et cet algorithme en générera une nouvelle image! Regardez simplement les résultats ci-dessus, un si grand pas en avant! Les résultats sont extrêmement impressionnants, surtout si vous considérez qu'ils ont été fabriqués à partir d'une seule ligne de texte!
Avez-vous déjà eu une image que vous avez vraiment aimé et que vous avez réussi à trouver une petite version qui ressemblait à cette image ci-dessous sur la gauche? À quel point serait-ce cool si vous pouviez prendre cette image et la rendre deux fois aussi belle? C'est génial, mais que se passe-t-il si vous pouviez le faire même quatre ou huit fois plus haute définition? Maintenant, nous parlons, regardez ça.
Ici, nous avons amélioré la résolution de l'image par un facteur de quatre, ce qui signifie que nous avons quatre fois plus de hauteur et de largeur des pixels pour plus de détails, ce qui le rend beaucoup plus fluide. La meilleure chose est que cela se fait en quelques secondes, complètement automatiquement, et fonctionne avec à peu près n'importe quelle image. Oh, et vous pouvez même l'utiliser vous-même avec une démo qu'ils ont rendue à disposition ...
Contrôlez n'importe quelle fonctionnalité à partir de brouillons rapides, et il modifiera seulement ce que vous voulez garder le reste de l'image comme! Édition d'image SOTA à partir du modèle Sketches basé sur GANS par Nvidia, MIT et Uoft.
Le modèle s'appelle Citynerf et pousse à partir de Nerf, que j'ai précédemment couvert sur ma chaîne. Nerf est l'un des premiers modèles utilisant des champs de radiance et l'apprentissage automatique pour construire des modèles 3D à partir d'images. Mais Nerf n'est pas si efficace et fonctionne à une seule échelle. Ici, Citynerf est appliqué aux images par satellite et au niveau du sol en même temps pour produire diverses échelles de modèle 3D pour n'importe quel point de vue. En termes simples, ils amènent Nerf à l'échelle de la ville. Mais comment?
Nous avons vu l'IA générer des images à partir d'autres images à l'aide de Gans. Ensuite, il y avait des modèles capables de générer des images douteuses à l'aide de texte. Au début de 2021, Dall-E a été publié, battant toutes les tentatives précédentes pour générer des images à partir de la saisie de texte à l'aide du clip, un modèle qui relie les images avec le texte comme guide. Une tâche très similaire appelée sous-titrage d'image peut sembler très simple mais est, en fait, tout aussi complexe. C'est la capacité d'une machine à générer une description naturelle d'une image. Il est facile de simplement marquer les objets que vous voyez sur l'image, mais c'est un autre défi de comprendre ce qui se passe dans une seule image bidimensionnelle, et ce nouveau modèle le fait extrêmement bien ...
Si vous souhaitez lire plus d'articles et avoir une vue plus large, voici un autre excellent référentiel pour vous couvrant 2020: 2020: une année pleine de documents AI incroyables - une critique et n'hésitez pas à vous abonner à ma newsletter hebdomadaire et à rester à jour -Date avec de nouvelles publications dans l'IA pour 2022!
Tagez-moi sur Twitter @Whats_ai ou LinkedIn @Louis (What's Ai) Bouchard si vous partagez la liste!
[1] A. Ramesh et al., Zéro-shot text-to-image Generation, 2021. Arxiv: 2102.12092
[2] Lewis, Kathleen M et al., (2021), Vogue: Try-on by Stylegan Interpolation Optimization.
[3] Taming Transformers pour la synthèse d'images à haute résolution, Esser et al., 2020.
[4] Pensant rapidement et lent dans l'IA, Booch et al., (2020), https://arxiv.org/abs/2010.06002.
[5] Odei Garcia-Garin et al., Détection automatique et quantification du macro-macro-macro-macro-caillot dans les images aériennes: introduction d'une nouvelle approche d'apprentissage en profondeur connectée à une application Web dans R, Pollution de l'environnement, https://doi.org/ 10.1016 / j.envpol.2021.116490.
[6] Rematas, K., Martin-Brualla, R., et Ferrari, V., «Sharf: champs de radiance conditionnés par une forme d'une seule vue», (2021), https://arxiv.org/abs/2102.08860
[7] Drew A. Hudson et C. Lawrence Zitnick, Generative Adversarial Transformers, (2021)
[8] Sandra Bryant et al., «Nous avons demandé à l'intelligence artificielle de créer des profils de rencontres. Souhaitez-vous glisser à droite? », (2021), UNSW Sydney Blog.
[9] Liu, Z. et al., 2021, «Swin Transformer: Transformateur de vision hiérarchique utilisant des fenêtres décalées», Arxiv Preprint https://arxiv.org/abs/2103.14030v1
[10] Zhang, Y., Chen, W., Ling, H., Gao, J., Zhang, Y., Torralba, A. et Fidler, S., 2020. Les gans d'image rencontrent un rendu différenciable pour les graphiques inverses et interprétables Rendu neuronal 3d. ARXIV Préprint Arxiv: 2010.09125.
[11] Yuille, Al et Liu, C., 2021. Nets Deep: Qu'ont-ils jamais fait pour la vision ?. International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.
[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.
[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.
[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.
[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.
[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.
[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.
[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.
[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos
[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.
[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).
[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 , http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.
[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.
[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.
[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.
[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).
[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.
[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.
[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734