Während sich die Welt noch erholt, hat die Forschung ihr frenetisches Tempo nicht verlangsamt, insbesondere im Bereich der künstlichen Intelligenz. Darüber hinaus wurden in diesem Jahr viele wichtige Aspekte hervorgehoben, wie die ethischen Aspekte, wichtige Vorurteile, Governance, Transparenz und vieles mehr. Künstliche Intelligenz und unser Verständnis des menschlichen Gehirns und seiner Verbindung zur KI entwickeln sich ständig und zeigen vielversprechende Anwendungen, die in naher Zukunft die Qualität unseres Lebens verbessern. Trotzdem sollten wir vorsichtig sein, mit welcher Technologie wir uns bewerben.
"Die Wissenschaft kann uns nicht sagen, was wir tun sollten, nur was wir tun können."
- Jean-Paul Sartre, Sein und Nichts
Hier sind die interessantesten Forschungsarbeiten des Jahres, falls Sie einen von ihnen verpasst haben. Kurz gesagt, es handelt sich um eine kuratierte Liste der neuesten Durchbrüche in AI und Data Science, die nach Veröffentlichungsdatum mit einer klaren Videoerklärung, dem Link zu einem detaillierteren Artikel und Code (falls zutreffend). Genieße die Lektüre!
Die vollständige Verweise auf jedes Papier ist am Ende dieses Repositorys aufgeführt. Sterne dieses Repository, um auf dem neuesten Stand zu bleiben! Euen
Betreuer: Louisfb01
Abonnieren Sie meinen Newsletter - die neuesten Updates in AI, die jede Woche erklärt hat.
Fühlen Sie sich frei, mir ein interessantes Papier zu senden, das ich möglicherweise verpasst habe, um dieses Repository hinzuzufügen.
Tag auf Twitter @whats_ai oder linkedIn @Louis (was ist AI) Bouchard, wenn Sie die Liste teilen!
Eine kuratierte Liste der Top 10 CV-Publikationen im Jahr 2021 mit einer klaren Videoerklärung, verlinke zu einem detaillierteren Artikel und Code.
Die Top 10 Computer Vision Papers von 2021
? Wenn Sie meine Arbeit unterstützen und W & B (kostenlos) verwenden möchten, um Ihre ML -Experimente zu verfolgen und Ihre Arbeit reproduzierbar zu machen oder mit einem Team zusammenzuarbeiten, können Sie es ausprobieren, indem Sie diesem Leitfaden folgen! Da der größte Teil des Codes hier Pytorch-basiert ist, dachten wir, dass ein QuickStart-Leitfaden zur Verwendung von W & B auf Pytorch am interessantesten wäre.
Befolgen Sie diese schnellen Anleitung, verwenden Sie dieselben W & B -Zeilen in Ihrem Code oder eines der folgenden Repos und lassen Sie alle Ihre Experimente automatisch in Ihrem W & B -Konto verfolgt! Die Einrichtung dauert nicht länger als 5 Minuten und wird Ihr Leben verändern wie für mich! Hier ist ein fortschrittlicherer Leitfaden für die Verwendung von Hyperparameter -Sweeps bei Interesse :)
? Vielen Dank an Gewichte und Vorurteile für das Sponsern dieses Repositorys und der Arbeit, die ich geleistet habe, und dank eines von Ihnen, der diesen Link verwendet und W & B probiert!
OpenAI hat ein Netzwerk erfolgreich geschult, in der es aus Textunterschriften Bilder generieren kann. Es ist GPT-3 und Image GPT sehr ähnlich und erzielt erstaunliche Ergebnisse.
Google verwendete eine modifizierte Stylegan2-Architektur, um einen Online-Umkleideraum zu erstellen, in dem Sie automatisch alle Hosen oder Hemden anprobieren können, die Sie nur mit einem Bild von sich selbst verwenden möchten.
TL; DR: Sie kombinierten die Effizienz von Gans und Faltungsansätzen mit der Expressivität von Transformatoren, um eine leistungsstarke und zeitlich effiziente Methode für die semantisch geführte hochwertige Bildsynthese zu erzeugen.
Lassen Sie sich von den menschlichen Fähigkeiten zu einer allgemeineren und vertrauenswürdigeren KI & 10 -Fragen für die AI -Forschungsgemeinschaft inspirieren.
Odei Garcia-Garin et al. Von der University of Barcelona haben einen tief lernbasierten Algorithmus entwickelt, der den schwimmenden Müll aus Luftbildern erkennen und quantifizieren kann. Sie stellten auch eine weborientierte Anwendung vor, mit der Benutzer diese Kleidung, die als schwimmende Marine-Makro-Litter oder FMML bezeichnet werden, in Bildern der Meeresoberfläche identifizieren konnten.
Stellen Sie sich vor, wie cool es wäre, nur ein Bild eines Objekts zu machen und es in 3D in den Film- oder Videospiel einfügen, das Sie erstellen, oder in einer 3D -Szene für eine Illustration.
Grundsätzlich nutzen sie den Aufmerksamkeitsmechanismus der Transformatoren in der mächtigen Stylegan2 -Architektur, um sie noch mächtiger zu machen!
Abonnieren Sie meinen wöchentlichen Newsletter und bleiben Sie mit neuen Veröffentlichungen in AI für 2022 auf dem neuesten Stand!
Würden Sie direkt auf ein KI -Profil wischen? Können Sie einen tatsächlichen Menschen von einer Maschine unterscheiden? Dies ist, was diese Studie mit KI-hergestellten Personen bei Dating-Apps zeigt.
Werden Transformatoren CNNs in Computer Vision ersetzen? In weniger als 5 Minuten wissen Sie, wie die Transformer -Architektur mit einem neuen Papier namens Swin Transformer auf Computer Vision angewendet werden kann.
Dieses vielversprechende Modell namens Ganverse3D benötigt nur ein Bild, um eine 3D -Figur zu erstellen, die angepasst und animiert werden kann!
"Ich werde offen alles über tiefe Netze für Visionsanwendungen, ihre Erfolge und die Einschränkungen, die wir angehen müssen, mitteilen."
Der nächste Schritt für die Sichtsynthese: Perpetual View Generation, wo das Ziel darin besteht, ein Bild zu nehmen, um in die Landschaft zu fliegen und die Landschaft zu erkunden!
Mit dieser Nervengrenzfläche mit KI-betriebener kann der Amputierte eine neuroprothetische Hand mit lebenseischer Geschicklichkeit und Intuitivität steuern.
Richtig, jedes Porträt basierend auf der Beleuchtung des neuen Hintergrunds, den Sie hinzufügen. Wollten Sie schon immer den Hintergrund eines Bildes ändern, aber haben es realistisch aussehen? Wenn Sie das bereits ausprobiert haben, wissen Sie bereits, dass es nicht einfach ist. Sie können nicht einfach ein Foto von sich in Ihrem Zuhause machen und den Hintergrund für einen Strand ändern. Es sieht einfach schlecht und nicht realistisch aus. Jeder wird in einer Sekunde nur "das ist photoshopped" sagen. Für Filme und professionelle Videos brauchen Sie die perfekte Beleuchtung und Künstler, um ein hochwertiges Bild zu reproduzieren, und das ist super teuer. Auf keinen Fall können Sie das mit Ihren eigenen Bildern tun. Oder kannst du?
Generieren Sie 3D -Modelle von Menschen oder Tieren, die sich nur aus einem kurzen Video als Eingabe bewegen. Dies ist eine neue Methode zur Erzeugung von 3D -Modellen von Menschen oder Tieren, die sich nur aus einem kurzen Video als Eingabe bewegen. In der Tat versteht es tatsächlich, dass dies eine seltsame Form ist, dass es sich bewegen kann, aber trotzdem angehängt bleiben muss, da dies immer noch ein "Objekt" ist und nicht nur viele Objekte zusammen ...
Diese KI kann live auf das Videospiel angewendet werden und transformieren jeden Frame, um viel natürlicher auszusehen. Die Forscher von Intel Labs haben gerade dieses Papier mit dem Titel Enhancing Photorealism Enhancement veröffentlicht. Und wenn Sie der Meinung sind, dass dies "nur ein weiterer Gan" sein könnte, das ein Bild des Videospiels als Eingabe macht und es dem Stil der natürlichen Welt verändert, lassen Sie mich Ihre Meinung ändern. Sie haben zwei Jahre an diesem Modell gearbeitet, um es äußerst robust zu machen. Es kann live auf das Videospiel angewendet werden und transformieren jeden Frame, um viel natürlicher auszusehen. Stellen Sie sich die Möglichkeiten vor, in denen Sie die Spielgrafik viel weniger Mühe geben können, es super stabil und vollständig machen und dann den Stil mit diesem Modell verbessern ...
Wie man eine tiefe Fälschung im Jahr 2021 entdeckt. Durchbruch der US -Armee -Technologie mit künstlicher Intelligenz, um Deepfakes zu finden.
Obwohl sie so aussehen, als wären sie immer dort gewesen, erschien das allererste realistische DeepFake erst 2017. Es ging von den ersten, die gefälschte Bilder ähnelten, die automatisch zu der heutigen identischen Kopie von jemandem auf Videos mit Klang generiert wurden.
Die Realität ist, dass wir den Unterschied zwischen einem echten Video oder Bild und einem Deepfake nicht mehr sehen können. Wie können wir sagen, was echt ist, was nicht ist? Wie können Audiodateien oder Videodateien vor Gericht als Beweis verwendet werden, wenn eine KI diese vollständig generieren kann? Nun, dieses neue Papier kann Antworten auf diese Fragen geben. Und die Antwort hier kann wieder die Verwendung künstlicher Intelligenz sein. Das Sprichwort "Ich werde es glauben, wenn ich es sehen werde" könnte sich bald ändern, weil ich es glauben werde, wenn die KI mir sagt, ich soll es glauben ... "
Wenden Sie einen beliebigen Stil in Echtzeit mit diesem neuen Ansatz für maschinelles Lernen auf Ihr 4K-Bild an!
In diesem Artikel geht es nicht um eine neue Technologie an sich. Stattdessen geht es um eine neue und aufregende Anwendung von Gans. In der Tat haben Sie den Titel gesehen und er war nicht Clickbait. Diese KI kann Ihre Haare übertragen, um zu sehen, wie es aussehen würde, bevor sie sich für die Veränderung verpflichten ...
Dieses neue Facebook -AI -Modell kann Text direkt im Bild in Ihrer eigenen Sprache übersetzen oder bearbeiten, folgt dem gleichen Stil!
Stellen Sie sich vor, Sie sind in einem anderen Land im Urlaub, in dem Sie die Sprache nicht sprechen. Sie möchten ein lokales Restaurant ausprobieren, aber ihre Speisekarte befindet sich in der Sprache, die Sie nicht sprechen. Ich denke, dies wird nicht zu schwer vorstellen, da die meisten von uns bereits in dieser Situation konfrontiert waren, ob Sie Menüpunkte oder Anweisungen sehen und nicht verstehen, was geschrieben steht. Nun, im Jahr 2020 würden Sie Ihr Telefon herausnehmen und Google übersetzen, was Sie sehen. Im Jahr 2021 müssen Sie Google Translate nicht einmal mehr öffnen und versuchen, das zu schreiben, was Sie nacheinander sehen, um es zu übersetzen. Stattdessen können Sie dieses neue Modell einfach von Facebook AI verwenden, um jeden Text im Bild in Ihrer eigenen Sprache zu übersetzen…
Wenn Sie auch mehr Forschungsarbeiten lesen möchten, empfehle ich Ihnen, meinen Artikel zu lesen, in dem ich meine besten Tipps zum Auffinden und Lesen von mehr Forschungsarbeiten teile.
Dieses Modell macht ein Bild, versteht, welche Partikel sich bewegen sollen, und belebt sie realistisch in einer unendlichen Schleife an, während sie den Rest des Bildes immer noch erstaunlich aussehende Videos wie dieses erstellen ...
Mit einer modifizierten GAN -Architektur können sie Objekte im Bild verschieben, ohne den Hintergrund oder die anderen Objekte zu beeinflussen!
Finden Sie heraus, wie dieses neue Modell von OpenAI Code aus Wörtern generiert!
Durch die Verwendung mehrerer maschinellernbasierter Algorithmen, die privat auf Ihrem Gerät ausgeführt werden, können Sie Ihre Bilder und Videos auf iOS 15 genau kuratieren und organisieren.
Verabschieden Sie sich von komplexen Gan- und Transformator -Architekturen für die Bildgenerierung! Diese neue Methode von Chenling Meng et al. Von der Stanford University und der Carnegie Mellon University können neue Bilder von allen benutzerbasierten Eingaben generieren. Sogar Menschen wie mich ohne künstlerische Fähigkeiten können jetzt schöne Bilder oder Modifikationen aus schnellen Skizzen generieren ...
Machen Sie das Gans -Training für alle einfacher, indem Sie Bilder nach einer Skizze generieren! In der Tat, wenn Sie diese neue Methode aussprechen, können Sie die Ausgänge Ihres GAN basierend auf der einfachsten Art von Wissen steuern, die Sie bereitstellen können: handgezeichnete Skizzen.
Wenn Sie sich fragen, wie ein Tesla -Auto nicht nur sehen kann, sondern mit anderen Fahrzeugen durch die Straßen navigieren kann, ist dies das Video, auf das Sie gewartet haben. Vor ein paar Tagen war der erste Tesla AI -Tag, an dem Andrej Karpathy, der Direktor von AI bei Tesla, und andere präsentierten, wie Teslas Autopilot über die Bildakquisition über ihre acht Kameras zum Navigationsprozess auf den Straßen arbeitet.
KI könnte Bilder erzeugen, wobei die Forscher die Ergebnisse nach bestimmten Stilen kontrollieren können. Mit diesem neuen Modell können Sie das jetzt nur mit Text tun!
Timelens können die Bewegung der Partikel zwischen den Frames eines Videos verstehen, um zu rekonstruieren, was wirklich mit einer Geschwindigkeit passiert ist, selbst wenn unsere Augen nicht sehen können. Tatsächlich erzielt es Ergebnisse, die unsere intelligenten Telefone und keine anderen Modelle zuvor erreichen konnten!
Abonnieren Sie meinen wöchentlichen Newsletter und bleiben Sie mit neuen Veröffentlichungen in AI für 2022 auf dem neuesten Stand!
Wollten Sie schon immer ein Video bearbeiten?
Jemanden entfernen oder hinzufügen, den Hintergrund ändern, etwas länger halten oder die Auflösung so ändern, dass sie ein bestimmtes Seitenverhältnis entspricht, ohne ihn zu komprimieren oder zu dehnen. Für diejenigen unter Ihnen, die bereits Werbekampagnen durchgeführt haben, wollten Sie sicherlich Variationen Ihrer Videos für AB -Tests durchführen und sehen, was am besten funktioniert. Nun, diese neue Forschung von NIV Haim et al. Kann Ihnen helfen, all diese aus einem einzigen Video und in HD zu machen!
In der Tat können Sie mit einem einfachen Video alle Aufgaben ausführen, die ich gerade in Sekunden oder wenige Minuten für hochwertige Videos erwähnt habe. Sie können es im Grunde genommen für jede Videomanipulation oder Videogenerierungsanwendung verwenden, die Sie im Vordergrund stehen. Es übertrifft Gans sogar in jeder Hinsicht und verwendet weder eine tiefe Lernforschung noch einen riesigen und unpraktischen Datensatz! Und das Beste ist, dass diese Technik auf hochauflösende Videos skalierbar ist.
DeepMind hat gerade ein generatives Modell veröffentlicht, das in 89% der Situationen weit verbreitete Nowcasting-Methoden für seine Genauigkeit und Nützlichkeit von mehr als 50 Expertenmeteorologen übertreffen kann! Ihr Modell konzentriert sich auf die Vorhersage der Niederschläge in den nächsten 2 Stunden und erreicht das überraschend gut. Es ist ein generatives Modell, was bedeutet, dass es die Prognosen generiert, anstatt sie einfach vorherzusagen. Grundsätzlich werden Radardaten aus der Vergangenheit verwendet, um zukünftige Radardaten zu erstellen. Verwenden Sie also sowohl Zeit- als auch räumliche Komponenten aus der Vergangenheit, so können sie in naher Zukunft erzeugen, wie es aussehen wird.
Sie können dies als das gleiche wie Snapchat -Filter sehen, Ihr Gesicht nehmen und ein neues Gesicht mit Änderungen erzeugen. Um ein solches generatives Modell auszubilden, benötigen Sie eine Reihe von Daten sowohl von den menschlichen Gesichtern als auch von der Art von Gesicht, die Sie generieren möchten. Wenn Sie dann ein sehr ähnliches Modell verwenden, das für viele Stunden trainiert ist, haben Sie ein leistungsstarkes Generativmodell. Diese Art von Modell verwendet häufig GANS -Architekturen für Schulungszwecke und verwendet dann das Generatormodell unabhängig.
Haben Sie sich jemals auf ein Video oder eine TV -Show eingestellt und die Schauspieler waren völlig unhörbar, oder die Musik war viel zu laut? Nun, dieses Problem, das auch das Problem der Cocktailparty genannt wird, kann nie wieder vorkommen. Die Mitsubishi und die Indiana University haben gerade ein neues Modell sowie einen neuen Datensatz veröffentlicht, der diese Aufgabe zur Identifizierung des richtigen Soundtracks angeht. Wenn wir beispielsweise denselben Audioclip nehmen, den wir mit der Musik viel zu laut betrieben haben, können Sie einfach den Audio -Track aufwenden oder hinunter, den Sie der Rede mehr Bedeutung haben möchten als die Musik.
Das Problem ist hier, jede unabhängige Klangquelle aus einer komplexen akustischen Szene wie einer Filmszene oder einem YouTube -Video zu isolieren, in dem einige Geräusche nicht gut ausbalanciert sind. Manchmal können Sie einige Schauspieler einfach nicht hören, weil die Musik oder Explosionen oder andere Umgebungsgeräusche im Hintergrund gespielt werden. Wenn Sie die verschiedenen Kategorien in einem Soundtrack erfolgreich isolieren, können Sie auch nur eine von ihnen aufwenden oder unten aufwenden, z. B. die Musik ein wenig ablenken, um alle anderen Schauspieler richtig zu hören. Genau das haben die Forscher erreicht.
Stellen Sie sich vor, Sie möchten ein 3D -Modell oder einfach ein flüssiges Video aus einer Reihe von Bildern generieren, die Sie gemacht haben. Nun, es ist jetzt möglich! Ich möchte nicht zu viel ausgeben, aber die Ergebnisse sind einfach erstaunlich und Sie müssen es selbst überprüfen!
Haben Sie jemals davon geträumt, den Stil eines Bildes zu nehmen, wie diesen coolen Tiktok -Zeichenstil auf der linken Seite, und es auf ein neues Bild Ihrer Wahl aufzutragen? Nun, ich habe es getan und es war noch nie einfacher zu tun. Tatsächlich können Sie dies sogar aus nur Text erreichen und es jetzt mit dieser neuen Methode und ihrem Google Colab -Notebook versuchen, das für alle verfügbar ist (siehe Referenzen). Machen Sie einfach ein Bild des Stils, den Sie kopieren möchten, geben Sie den Text ein, den Sie generieren möchten, und dieser Algorithmus generiert ein neues Bild daraus! Schauen Sie einfach auf die obigen Ergebnisse zurück, so ein großer Schritt nach vorne! Die Ergebnisse sind äußerst beeindruckend, insbesondere wenn man bedenkt, dass sie aus einer einzigen Textlinie gemacht wurden!
Haben Sie jemals ein Bild gehabt, das Ihnen wirklich gefallen hat und es nur schaffen konnten, eine kleine Version davon zu finden, die auf der linken Seite wie dieses Bild aussah? Wie cool wäre es, wenn Sie dieses Bild aufnehmen und es zweimal genauso gut aussehen könnten? Es ist großartig, aber was wäre, wenn Sie es auch vier- oder achtmal hochgeführt werden könnten? Jetzt reden wir, schau dir das einfach an.
Hier haben wir die Auflösung des Bildes um den Faktor vier erweitert, was bedeutet, dass wir viermal mehr Höhen- und Breitenpixel für weitere Details haben, sodass es viel reibungsloser aussieht. Das Beste ist, dass dies innerhalb weniger Sekunden, vollständig automatisch und so ziemlich jedes Bild funktioniert. Oh, und Sie können es sogar selbst mit einer Demo verwenden, die sie zur Verfügung gestellt haben ...
Steuern Sie jede Funktion von schnellen Entwürfen und bearbeiten Sie nur das, was Sie den Rest des Bildes gleich halten möchten! SOTA -Bildbearbeitung aus dem Skizzenmodell basierend auf Gans von Nvidia, MIT und Uoft.
Das Modell heißt Citynerf und wächst von Nerf, das ich zuvor auf meinem Kanal abgedeckt habe. Nerf ist eines der ersten Modelle, die Radiance Fields und maschinelles Lernen verwenden, um 3D -Modelle aus den Bildern zu konstruieren. Nerf ist jedoch nicht so effizient und arbeitet für eine einzige Skala. Hier wird Citynerf gleichzeitig auf Satelliten- und Bodenbilder angewendet, um verschiedene 3D-Modellskalen für jeden Standpunkt zu erstellen. In einfachen Worten bringen sie Nerf in die Stadt. Aber wie?
Wir haben gesehen, wie KI Bilder aus anderen Bildern mit Gans generiert. Dann gab es Modelle, die in der Lage waren, fragwürdige Bilder mit Text zu generieren. Anfang 2021 wurde Dall-E veröffentlicht, wobei alle früheren Versuche, Bilder aus der Texteingabe mit CLIP zu generieren, ein Modell mit Text als Leitfaden veranlasst. Eine sehr ähnliche Aufgabe namens Bildunterschrift mag wirklich einfach klingen, aber in der Tat genauso komplex. Es ist die Fähigkeit einer Maschine, eine natürliche Beschreibung eines Bildes zu erzeugen. Es ist einfach, einfach die Objekte zu markieren, die Sie im Bild sehen, aber es ist eine ganz andere Herausforderung zu verstehen, was in einem einzigen zweidimensionalen Bild passiert, und dieses neue Modell macht es sehr gut ...
Wenn Sie mehr Papiere lesen und einen breiteren Blick haben möchten, finden Sie hier ein weiteres großartiges Repository für Sie, über 2020: 2020: Ein Jahr voller erstaunlicher AI-Papiere- eine Überprüfung und zeichnen Sie meinen wöchentlichen Newsletter an und bleiben Sie auf dem Laufenden -Date mit neuen Veröffentlichungen in AI für 2022!
Tag auf Twitter @whats_ai oder linkedIn @Louis (was ist AI) Bouchard, wenn Sie die Liste teilen!
[1] A. Ramesh et al., Null-Shot-Text-zu-Image-Erzeugung, 2021. ARXIV: 2102.12092
[2] Lewis, Kathleen M et al., (2021), Vogue: Probieren Sie von Stylegan Interpolation-Optimierung.
[3] Taming-Transformatoren für hochauflösende Bildsynthese, Esser et al., 2020.
[4] Schnell und langsam in AI, Booch et al. (2020), https://arxiv.org/abs/2010.06002.
[5] Odei Garcia-Garin et al., Automatische Erkennung und Quantifizierung von schwimmenden Meeresmakro-Litter in Luftbildern: Einführung eines neuen Deep-Learning-Ansatzes, der mit einer Webanwendung in R, Umweltverschmutzung, https://doi.org/ verbunden ist 10.1016/j.envpol.2021.116490.
[6] Rematas, K., Martin-Brualla, R. und Ferrari, V., „Share: form-conditionierte Strahlungsfelder aus einer einzigen Ansicht“, (2021), https://arxiv.org/abs/2102.08860
[7] Drew A. Hudson und C. Lawrence Zitnick, generative widersprüchliche Transformatoren, (2021)
[8] Sandra Bryant et al.: „Wir haben künstliche Intelligenz gebeten, Dating -Profile zu kreieren. Würden Sie richtig wischen? “, (2021), UNSW Sydney Blog.
[9] Liu, Z. et al., 2021, „Swin -Transformator: Hierarchischer Vision -Transformator mit verschobenen Fenstern“, Arxiv Preprint https://arxiv.org/abs/2103.14030v1
[10] Zhang, Y., Chen, W., Ling, H., Gao, J., Zhang, Y., Torralba, A. und Fidler, S., 2020. Image Gans begegnen differenzierbares Rendering für inverse Grafik und interpretierbar 3D -neuronale Rendering. Arxiv Preprint Arxiv: 2010.09125.
[11] Yuille, Al und Liu, C., 2021. Deep Nets: Was haben sie jemals für das Vision getan?. International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.
[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.
[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.
[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.
[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.
[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.
[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.
[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.
[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos
[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.
[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).
[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 Anwesend http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.
[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.
[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.
[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.
[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).
[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.
[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.
[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734