Enquanto o mundo ainda está se recuperando, a pesquisa não diminuiu seu ritmo frenético, especialmente no campo da inteligência artificial. Mais, muitos aspectos importantes foram destacados este ano, como os aspectos éticos, vieses importantes, governança, transparência e muito mais. A inteligência artificial e nossa compreensão do cérebro humano e seu vínculo com a IA estão em constante evolução, mostrando aplicações promissoras melhorando a qualidade de nossa vida em um futuro próximo. Ainda assim, devemos ter cuidado com a tecnologia que escolhemos aplicar.
"A ciência não pode nos dizer o que devemos fazer, apenas o que podemos fazer".
- Jean-Paul Sartre, ser e nada
Aqui estão os trabalhos de pesquisa mais interessantes do ano, caso você tenha perdido qualquer um deles. Em resumo, é uma lista com curadoria dos últimos avanços na IA e na Ciência dos Dados por data de lançamento com uma explicação clara de vídeo, link para um artigo mais aprofundado e código (se aplicável). Aproveite a leitura!
A referência completa a cada artigo está listada no final deste repositório. Estrela este repositório para se manter atualizado! ️
Manter: Louisfb01
Inscreva -se no meu boletim informativo - as atualizações mais recentes da IA explicadas toda semana.
Sinta -se à vontade para me enviar uma mensagem interessante que eu possa ter perdido para adicionar a este repositório.
Marque -me no Twitter @whats_ai ou LinkedIn @louis (o que é ai) Bouchard se você compartilhar a lista!
Uma lista com curadoria das 10 principais publicações de CV em 2021 com uma explicação clara de vídeo, link para um artigo mais aprofundado e código.
Os 10 principais documentos de visão computacional de 2021
? Se você deseja apoiar meu trabalho e usar a W&B (gratuitamente) para rastrear seus experimentos de ML e tornar seu trabalho reproduzível ou colaborar com uma equipe, você pode experimentá -lo seguindo este guia! Como a maior parte do código aqui é baseada em Pytorch, pensamos que um guia do QuickStart para o uso da W&B no Pytorch seria mais interessante de compartilhar.
Siga este guia rápido, use as mesmas linhas W&B em seu código ou qualquer um dos repositórios abaixo e tenha todas as suas experiências rastreadas automaticamente na sua conta W&B! Não leva mais de 5 minutos para se preparar e mudará sua vida como isso para mim! Aqui está um guia mais avançado para usar varreduras de hyperparameter se estiver interessado :)
? Obrigado a Weights & Baryes por patrocinar este repositório e o trabalho que tenho feito, e graças a qualquer um de vocês que use este link e tente W&B!
O OpenAI treinou com sucesso uma rede capaz de gerar imagens a partir de legendas de texto. É muito parecido com o GPT-3 e o Image GPT e produz resultados surpreendentes.
O Google usou uma arquitetura modificada Stylegan2 para criar uma sala de encaixe on-line, onde você pode experimentar automaticamente as calças ou camisas que deseja usar apenas uma imagem sua.
TL; DR: Eles combinaram a eficiência de Gans e abordagens convolucionais com a expressividade dos transformadores para produzir um método poderoso e eficiente em termos de tempo para a síntese de imagem de alta qualidade guiada semanticamente.
Inspirando -se nas capacidades humanas em direção a uma IA e 10 perguntas mais gerais e confiáveis para a comunidade de pesquisa de IA.
Odei Garcia-Garin et al. Da Universidade de Barcelona, desenvolveram um algoritmo profundo baseado em aprendizado, capaz de detectar e quantificar lixo flutuante a partir de imagens aéreas. Eles também fizeram um aplicativo orientado para a Web, permitindo que os usuários identificassem essas roupas, chamadas macro-lixo marítimo flutuantes, ou FMML, dentro de imagens da superfície do mar.
Imagine como seria legal tirar a foto de um objeto e tê -lo em 3D para inserir no filme ou videogame que você está criando ou em uma cena 3D para uma ilustração.
Eles basicamente aproveitam o mecanismo de atenção dos transformadores na poderosa arquitetura Stylegan2 para torná -la ainda mais poderosa!
Inscreva-se no meu boletim semanal e mantenha-se atualizado com novas publicações na IA para 2022!
Você deslizaria para a direita em um perfil de IA? Você pode distinguir um humano real de uma máquina? É isso que este estudo revela o uso de pessoas criadas pela IA em aplicativos de namoro.
Os transformadores substituirão os CNNs na visão computacional? Em menos de 5 minutos, você saberá como a arquitetura do transformador pode ser aplicada à visão computacional com um novo artigo chamado Swin Transformer.
Esse modelo promissor chamado Ganverse3D precisa apenas de uma imagem para criar uma figura 3D que possa ser personalizada e animada!
"Compartilharei abertamente tudo sobre redes profundas para aplicações de visão, seus sucessos e as limitações que temos que abordar".
O próximo passo para a síntese de visualização: geração perpétua de visão, onde o objetivo é tirar uma imagem para voar nela e explorar a paisagem!
Com esta interface nervosa movida a IA, o amputado pode controlar uma mão neuroprotética com destreza e intuitividade parecidas com o tipo real.
Recuse corretamente qualquer retrato com base na iluminação do novo fundo que você adicionar. Você já quis mudar o pano de fundo de uma foto, mas parece realista? Se você já tentou isso, já sabe que não é simples. Você não pode simplesmente tirar uma foto sua em sua casa e mudar o plano de fundo para uma praia. Parece ruim e não é realista. Qualquer pessoa apenas dirá "isso é photoshopado" em um segundo. Para filmes e vídeos profissionais, você precisa da iluminação e dos artistas perfeitos para reproduzir uma imagem de alta qualidade, e isso é super caro. Não há como você fazer isso com suas próprias fotos. Ou você pode?
Gere modelos 3D de humanos ou animais que se deslocam apenas de um pequeno vídeo como entrada. Este é um novo método para gerar modelos 3D de seres humanos ou animais que se deslocam apenas de um pequeno vídeo como entrada. De fato, ele realmente entende que essa é uma forma estranha, que pode se mover, mas ainda precisa permanecer apegado, pois este ainda é um "objeto" e não apenas muitos objetos juntos ...
Esta IA pode ser aplicada ao vivo ao videogame e transformar cada quadro para parecer muito mais natural. Os pesquisadores da Intel Labs acabaram de publicar este artigo chamado aprimoramento do aprimoramento do fotorrealismo. E se você acha que isso pode ser "apenas mais um GaN", tirando uma foto do videogame como uma entrada e mudando -o após o estilo do mundo natural, deixe -me mudar de idéia. Eles trabalharam nesse modelo por dois anos para torná -lo extremamente robusto. Ele pode ser aplicado ao vivo ao videogame e transformar todos os quadros para parecer muito mais naturais. Imagine as possibilidades em que você pode se esforçar muito menos no gráfico do jogo, torná -lo super estável e completo e depois melhorar o estilo usando este modelo ...
Como identificar uma falsa profunda em 2021. A tecnologia do Exército dos EUA, usando inteligência artificial, para encontrar deepfakes.
Enquanto parecem que sempre estiveram lá, o primeiro Deepfake realista não apareceu até 2017. Ele passou da primeira semelhança de imagens falsas geradas automaticamente para a cópia idêntica de alguém de alguém em vídeos, com som.
A realidade é que não podemos mais ver a diferença entre um vídeo ou imagem real e um Deepfake. Como podemos dizer o que é real do que não é? Como os arquivos de áudio ou os arquivos de vídeo podem ser usados no tribunal como prova se uma IA puder gerá -los completamente? Bem, este novo artigo pode fornecer respostas a essas perguntas. E a resposta aqui pode ser novamente o uso da inteligência artificial. O ditado "eu vou acreditar quando o verei" pode mudar em breve para "Eu acreditarei quando a IA me disser para acreditar ..."
Aplique qualquer estilo à sua imagem 4K em tempo real usando esta nova abordagem baseada em aprendizado de máquina!
Este artigo não é sobre uma nova tecnologia em si. Em vez disso, trata -se de uma aplicação nova e emocionante de Gans. De fato, você viu o título, e não foi o clickbait. Esta IA pode transferir seu cabelo para ver como seria antes de se comprometer com a mudança ...
Este novo modelo da IA do Facebook pode traduzir ou editar texto diretamente na imagem em seu próprio idioma, seguindo o mesmo estilo!
Imagine que você está de férias em outro país onde não fala o idioma. Você quer experimentar um restaurante local, mas o menu deles está no idioma que você não fala. Eu acho que isso não será muito difícil de imaginar, pois a maioria de nós já enfrentou essa situação, se você vê itens ou instruções de menu e não consegue entender o que está escrito. Bem, em 2020, você pegava seu telefone e o Google traduzia o que vê. Em 2021, você nem precisa mais abrir o Google Translate e tentar escrever o que vê um por um para traduzi -lo. Em vez disso, você pode simplesmente usar esse novo modelo pelo Facebook AI para traduzir todos os textos da imagem em seu próprio idioma ...
Se você também quiser ler mais trabalhos de pesquisa, recomendo que você leia meu artigo, onde compartilho minhas melhores dicas para encontrar e ler mais trabalhos de pesquisa.
Este modelo tira uma foto, entende quais partículas devem estar se movendo e as anima realisticamente em um loop infinito enquanto conservava o restante da foto ainda criando vídeos de aparência incrível como este ...
Usando uma arquitetura GAN modificada, eles podem mover objetos na imagem sem afetar o plano de fundo ou os outros objetos!
Descubra como esse novo modelo do OpenAI gera código das palavras!
Usando vários algoritmos baseados em aprendizado de máquina em particular no seu dispositivo, a Apple permite que você selecione com precisão e organize suas imagens e vídeos no iOS 15.
Diga adeus às arquiteturas complexas de GaN e transformadores para geração de imagens! Este novo método de Chenling Meng et al. Da Universidade de Stanford e da Universidade Carnegie Mellon, podem gerar novas imagens a partir de quaisquer entradas baseadas em usuários. Até pessoas como eu com zero habilidades artísticas agora podem gerar belas imagens ou modificações a partir de esboços rápidos ...
Torne o treinamento GANS mais fácil para todos, gerando imagens após um esboço! De fato, com esse novo método, você pode controlar as saídas do seu GaN com base no tipo mais simples de conhecimento que você pode fornecer: esboços desenhados à mão.
Se você se pergunta como um carro da Tesla pode não apenas ver, mas também navegar pelas estradas com outros veículos, este é o vídeo que você estava esperando. Há alguns dias, foi o primeiro dia de Tesla ai em que Andrej Karpathy, o diretor da IA da Tesla, e outros apresentaram como o piloto automático de Tesla funciona desde a aquisição de imagens através de suas oito câmeras até o processo de navegação nas estradas.
A IA pode gerar imagens, então, usando muita força cerebral e tentativa e erro, os pesquisadores podem controlar os resultados seguindo estilos específicos. Agora, com este novo modelo, você pode fazer isso usando apenas texto!
Os timelens podem entender o movimento das partículas entre os quadros de um vídeo para reconstruir o que realmente aconteceu a uma velocidade, mesmo nossos olhos não podem ver. De fato, alcança resultados que nossos telefones inteligentes e nenhum outro modelos poderiam alcançar antes!
Inscreva-se no meu boletim semanal e mantenha-se atualizado com novas publicações na IA para 2022!
Você já quis editar um vídeo?
Remova ou adicione alguém, altere o plano de fundo, faça com que dure um pouco mais ou altere a resolução para ajustar uma proporção específica sem comprimir ou esticá -la. Para aqueles que já publicaram campanhas de propaganda, certamente queriam ter variações de seus vídeos para testes de AB e ver o que funciona melhor. Bem, esta nova pesquisa de Niv Haim et al. Pode ajudá -lo a fazer tudo isso em um único vídeo e em HD!
De fato, usando um vídeo simples, você pode executar quaisquer tarefas que acabei de mencionar em segundos ou alguns minutos para vídeos de alta qualidade. Você pode basicamente usá -lo para qualquer aplicativo de manipulação de vídeo ou geração de vídeo que tenha em mente. Até supera os Gans de todas as maneiras e não usa pesquisa sofisticada de aprendizado profundo nem requer um conjunto de dados enorme e impraticável! E o melhor é que essa técnica é escalável para vídeos de alta resolução.
O DeepMind acaba de lançar um modelo generativo capaz de superar os métodos de nowcasting amplamente usados em 89% das situações por sua precisão e utilidade avaliadas por mais de 50 meteorologistas especialistas! O modelo deles se concentra na previsão de precipitações nas próximas 2 horas e alcança isso surpreendentemente bem. É um modelo generativo, o que significa que ele gerará as previsões em vez de simplesmente prever. Basicamente, são necessários dados de radar do passado para criar dados futuros de radar. Portanto, usando os componentes de tempo e espacial do passado, eles podem gerar como será em um futuro próximo.
Você pode ver isso como o mesmo que os filtros do Snapchat, levando seu rosto e gerando um novo rosto com modificações. Para treinar um modelo tão generativo, você precisa de um monte de dados dos rostos humanos e do tipo de rosto que deseja gerar. Em seguida, usando um modelo muito semelhante treinado por muitas horas, você terá um poderoso modelo generativo. Esse tipo de modelo geralmente usa arquiteturas GANS para fins de treinamento e, em seguida, usa o modelo gerador de forma independente.
Você já se sintonizou em um vídeo ou um programa de TV e os atores eram completamente inaudíveis, ou a música era muito alta? Bem, esse problema, também chamado de problema de coquetel, pode nunca mais acontecer. A Mitsubishi e a Universidade de Indiana acabaram de publicar um novo modelo, bem como um novo conjunto de dados abordando essa tarefa de identificar a trilha sonora certa. Por exemplo, se pegarmos o mesmo clipe de áudio, apenas corremos com a música muito alta, você pode simplesmente subir ou descer a faixa de áudio que deseja dar mais importância ao discurso do que a música.
O problema aqui está isolando qualquer fonte de som independente de uma cena acústica complexa, como uma cena de cinema ou um vídeo do YouTube, onde alguns sons não são bem equilibrados. Às vezes, você simplesmente não consegue ouvir alguns atores por causa da música tocando ou explosões ou outros sons ambientais em segundo plano. Bem, se você isolar com sucesso as diferentes categorias em uma trilha sonora, isso significa que você também pode aumentar ou baixar apenas uma delas, como recusar a música um pouco para ouvir todos os outros atores corretamente. É exatamente isso que os pesquisadores alcançaram.
Imagine que você deseja gerar um modelo 3D ou simplesmente um vídeo fluido de um monte de fotos que você tirou. Bem, agora é possível! Não quero dar muito, mas os resultados são simplesmente incríveis e você precisa conferir sozinho!
Você já sonhou em tirar o estilo de uma foto, como esse estilo legal de desenho Tiktok à esquerda e aplicá -la a uma nova foto de sua escolha? Bem, eu fiz, e nunca foi tão fácil de fazer. De fato, você pode até conseguir isso apenas a partir de texto e pode experimentá -lo agora com esse novo método e o notebook do Google Colab disponível para todos (consulte referências). Basta tirar uma foto do estilo que você deseja copiar, digite o texto que deseja gerar, e esse algoritmo gerará uma nova foto a partir dele! Basta olhar para os resultados acima, um grande passo à frente! Os resultados são extremamente impressionantes, especialmente se você considerar que eles foram feitos de uma única linha de texto!
Você já teve uma imagem de que realmente gostou e só conseguiu encontrar uma pequena versão que parecia com essa imagem abaixo à esquerda? Quão legal seria se você pudesse tirar essa imagem e fazê -la parecer duas vezes tão boa? É ótimo, mas e se você pudesse torná -lo quatro ou oito vezes mais alta definição? Agora estamos falando, basta olhar para isso.
Aqui, aumentamos a resolução da imagem em um fator de quatro, o que significa que temos quatro vezes mais pixels de altura e largura para obter mais detalhes, fazendo com que pareça muito mais suave. A melhor coisa é que isso é feito em alguns segundos, completamente automaticamente, e funciona com praticamente qualquer imagem. Ah, e você pode até usá -lo com uma demonstração que eles disponibilizaram ...
Controle qualquer recurso de rascunhos rápidos e ele apenas editará o que você deseja manter o restante da imagem da mesma forma! Edição de imagem SOTA do modelo Sketches baseado em Gans da Nvidia, MIT e Uoft.
O modelo é chamado Citynerf e cresce de Nerf, que eu já cobri no meu canal. O NERF é um dos primeiros modelos que usam campos de radiação e aprendizado de máquina para construir modelos 3D a partir de imagens. Mas o NERF não é tão eficiente e funciona para uma única escala. Aqui, o Citynerf é aplicado a imagens de satélite e no nível do solo ao mesmo tempo para produzir várias escalas de modelo 3D para qualquer ponto de vista. Em palavras simples, eles trazem Nerf para a escala da cidade. Mas como?
Vimos a IA gerar imagens de outras imagens usando Gans. Em seguida, houve modelos capazes de gerar imagens questionáveis usando o texto. No início de 2021, o Dall-E foi publicado, vencendo todas as tentativas anteriores de gerar imagens da entrada de texto usando clipe, um modelo que vincula imagens ao texto como um guia. Uma tarefa muito semelhante chamada Legending de imagem pode parecer realmente simples, mas é, de fato, igualmente complexa. É a capacidade de uma máquina gerar uma descrição natural de uma imagem. É fácil simplesmente marcar os objetos que você vê na imagem, mas é outro desafio entender o que está acontecendo em uma única imagem bidimensional, e esse novo modelo faz isso extremamente bem ...
Se você gostaria de ler mais trabalhos e ter uma visão mais ampla, aqui está outro ótimo repositório para você, cobrindo 2020: 2020: um ano cheio de documentos incríveis de IA- uma revisão e fique à vontade para se inscrever na minha newsletter semanal e manter-se atualizado -Date com novas publicações na IA para 2022!
Marque -me no Twitter @whats_ai ou LinkedIn @louis (o que é ai) Bouchard se você compartilhar a lista!
[1] A. Ramesh et al., Geração de texto para imagem zero, 2021. Arxiv: 2102.12092
[2] Lewis, Kathleen M et al., (2021), Vogue: Try-On by Stylegan Interpolation Optimization.
[3] Taming Transformers para síntese de imagem de alta resolução, Esser et al., 2020.
[4] Pensando rápido e lento em IA, Booch et al., (2020), https://arxiv.org/abs/2010.06002.
[5] Odei Garcia-Garin et al., Detecção e quantificação automáticas de macro-lixo marinho flutuantes em imagens aéreas: introduzindo uma nova abordagem de aprendizado profundo conectado a um aplicativo da Web em R, Poluição Ambiental, https://doi.org/ 10.1016/j.envpol.2021.116490.
[6] Rematas, K., Martin-Brualla, R. e Ferrari, V., “Sharf: Campos de radiação condicionados a formas de uma única exibição”, (2021), https://arxiv.org/abs/2102.08860
[7] Drew A. Hudson e C. Lawrence Zitnick, Transformadores adversários generativos, (2021)
[8] Sandra Bryant et al., “Pedimos à inteligência artificial para criar perfis de namoro. Você passaria a passar certo? ”, (2021), UNSW Sydney Blog.
[9] Liu, Z. et al., 2021, “Transformador Swin: transformador de visão hierárquica usando janelas deslocadas”, Arxiv Preprint https://arxiv.org/abs/2103.14030v1
[10] Zhang, Y., Chen, W., Ling, H., Gao, J., Zhang, Y., Torralba, A. e Fidler, S., 2020. Image Gans encontram renderização diferenciável para gráficos inversos e interpretáveis e interpretáveis Renderização neural 3D. Arxiv pré -impressão Arxiv: 2010.09125.
[11] Yuille, AL e Liu, C., 2021. Deep Nets: O que eles já fizeram pela visão?. International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.
[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.
[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.
[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.
[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.
[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.
[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.
[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.
[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos
[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.
[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).
[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 , Assim, http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.
[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.
[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.
[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.
[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).
[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.
[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.
[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734