Mientras el mundo todavía se está recuperando, la investigación no ha ralentizado su ritmo frenético, especialmente en el campo de la inteligencia artificial. Más, muchos aspectos importantes se destacaron este año, como los aspectos éticos, los sesgos importantes, la gobernanza, la transparencia y mucho más. La inteligencia artificial y nuestra comprensión del cerebro humano y su vínculo con la IA evolucionan constantemente, mostrando aplicaciones prometedoras que mejoran la calidad de nuestra vida en el futuro cercano. Aún así, debemos tener cuidado con la tecnología que elegimos aplicar.
"La ciencia no puede decirnos qué debemos hacer, solo lo que podemos hacer".
- Jean-Paul Sartre, ser y nada
Estos son los trabajos de investigación más interesantes del año, en caso de que te hayas perdido alguno de ellos. En resumen, se ha curado la lista de los últimos avances en IA y ciencia de datos por fecha de lanzamiento con una explicación de video clara, enlace a un artículo más profundo y código (si corresponde). ¡Disfruta de la lectura!
La referencia completa a cada documento se enumera al final de este repositorio. ¡Estrata este repositorio para mantenerse actualizado! ️
Mantenedor: LouisFB01
Suscríbase a mi boletín: las últimas actualizaciones en AI explicadas cada semana.
Siéntase libre de enviarme un mensaje interesante que me haya perdido para agregar a este repositorio.
¡Etiquetame en Twitter @Whats_Ai o LinkedIn @louis (What's AI) Bouchard si comparte la lista!
Una lista curada de las 10 principales publicaciones de CV en 2021 con una explicación de video clara, enlace a un artículo más profundo y código.
Los 10 mejores documentos de visión por computadora de 2021
? Si desea apoyar mi trabajo y usar W&B (de forma gratuita) para rastrear sus experimentos de ML y hacer que su trabajo sea reproducible o colaborar con un equipo, ¡puede probarlo siguiendo esta guía! Dado que la mayor parte del código aquí está basado en Pytorch, pensamos que una guía rápida para usar W&B en Pytorch sería más interesante compartir.
Siga esta guía rápida, use las mismas líneas W&B en su código o en cualquiera de los reposos a continuación, ¡y haga que todos sus experimentos rastreen automáticamente en su cuenta W&B! ¡No lleva más de 5 minutos establecerse y cambiará tu vida como lo hizo para mí! Aquí hay una guía más avanzada para usar barridos de hiperparámetro si está interesado :)
? ¡Gracias a pesas y prejuicios por patrocinar este repositorio y el trabajo que he estado haciendo, y gracias a cualquiera de ustedes que usa este enlace e intenta W&B!
OpenAI capacitó con éxito una red capaz de generar imágenes a partir de subtítulos de texto. Es muy similar a GPT-3 e Image GPT y produce resultados sorprendentes.
Google usó una arquitectura de StyleGan2 modificada para crear una sala de ajuste en línea donde puede probar automáticamente cualquier pantalón o camisa que desee usar solo una imagen de usted mismo.
TL; DR: Combinaron la eficiencia de los GANS y los enfoques convolucionales con la expresividad de los transformadores para producir un método potente y eficiente en el tiempo para la síntesis de imágenes de alta calidad guiada semánticamente.
Inspirarse en las capacidades humanas hacia una AI más general y confiable y 10 preguntas para la comunidad de investigación de IA.
Odei García-Garin et al. de la Universidad de Barcelona ha desarrollado un algoritmo basado en el aprendizaje profundo capaz de detectar y cuantificar la basura flotante de las imágenes aéreas. También hicieron una aplicación orientada a la web que permitió a los usuarios identificar estos guardianes, llamados macro-lámina marina flotante, o FMML, dentro de las imágenes de la superficie del mar.
Solo imagine lo genial que sería tomar una foto de un objeto y tenerlo en 3D para insertar en la película o el videojuego que está creando o en una escena 3D para una ilustración.
¡Básicamente aprovechan el mecanismo de atención de los transformadores en la poderosa arquitectura StyleGan2 para que sea aún más poderosa!
¡Suscríbase a mi boletín semanal y manténgase actualizado con nuevas publicaciones en IA para 2022!
¿Te deslizarías directamente en un perfil de IA? ¿Puedes distinguir a un humano real de una máquina? Esto es lo que este estudio revela el uso de personas hechas de IA en aplicaciones de citas.
¿Los transformadores reemplazarán los CNN en la visión por computadora? En menos de 5 minutos, sabrá cómo la arquitectura del transformador se puede aplicar a la visión por computadora con un nuevo artículo llamado Transformador Swin.
¡Este modelo prometedor llamado Ganverse3D solo necesita una imagen para crear una figura 3D que se pueda personalizar y animar!
"Compartiré abiertamente todo sobre redes profundas para aplicaciones de visión, sus éxitos y las limitaciones que tenemos que abordar".
¡El siguiente paso para la síntesis de vistas: generación de vista perpetua, donde el objetivo es tomar una imagen para volar en ella y explorar el paisaje!
Con esta interfaz nerviosa alimentada por IA, el amputado puede controlar una mano neuroprotésica con destreza e intuitividad realista.
Alquile correctamente cualquier retrato basado en la iluminación del nuevo fondo que agregue. ¿Alguna vez has querido cambiar el fondo de una imagen pero que parece realista? Si ya lo ha intentado, ya sabe que no es simple. No puedes simplemente tomarte una foto en tu casa y cambiar el fondo de una playa. Simplemente se ve mal y no realista. Cualquiera solo dirá "eso es Photoshopped" en un segundo. Para películas y videos profesionales, necesita la iluminación perfecta y los artistas para reproducir una imagen de alta calidad, y eso es muy caro. No hay forma de que puedas hacer eso con tus propias fotos. ¿O puedes?
Genere modelos 3D de humanos o animales que se muevan de solo un video corto como entrada. Este es un nuevo método para generar modelos 3D de humanos o animales que se mueven de solo un video corto como entrada. De hecho, en realidad entiende que esta es una forma extraña, que puede moverse, pero aún necesita permanecer adjunta, ya que sigue siendo un "objeto" y no solo muchos objetos juntos ...
Esta IA se puede aplicar en vivo al videojuego y transformar cada cuadro para que se vea mucho más natural. Los investigadores de Intel Labs acaban de publicar este artículo llamado Mejora de la mejora del fotorrealismo. Y si crees que esto puede ser "solo otra ganancia", tomando una foto del videojuego como una entrada y cambiarlo siguiendo el estilo del mundo natural, déjame cambiar tu mente. Trabajaron en este modelo durante dos años para hacerlo extremadamente robusto. Se puede aplicar en vivo al videojuego y transformar cada cuadro para que se vea mucho más natural. Imagine las posibilidades en las que puede poner mucho menos esfuerzo en el gráfico del juego, hacerlo súper estable y completo, luego mejorar el estilo usando este modelo ...
Cómo detectar una falsificación profunda en 2021. Breakthroughthrough Technology del Ejército de EE. UU. Usando inteligencia artificial para encontrar defectos profundos.
Si bien parece que siempre han estado allí, el primer Deepfake realista no apareció hasta 2017. Pasó de la primera vez que se asemeja a imágenes falsas generadas automáticamente a la copia idéntica de alguien en videos de hoy, con sonido.
La realidad es que ya no podemos ver la diferencia entre un video o imagen real y un defake profundo. ¿Cómo podemos saber qué es real de lo que no? ¿Cómo se pueden usar archivos de audio o archivos de video en la corte como prueba si una IA puede generarlos por completo? Bueno, este nuevo artículo puede proporcionar respuestas a estas preguntas. Y la respuesta aquí puede ser nuevamente el uso de la inteligencia artificial. El dicho "lo creeré cuando lo veré" pronto puede cambiar por "Lo creeré cuando la IA me dice que lo crea ..."
¡Aplique cualquier estilo a su imagen 4K en tiempo real utilizando este nuevo enfoque basado en el aprendizaje automático!
Este artículo no se trata de una nueva tecnología en sí misma. En cambio, se trata de una aplicación nueva y emocionante de Gans. De hecho, viste el título y no era Clickbait. Esta IA puede transferir su cabello para ver cómo se vería antes de comprometerse con el cambio ...
¡Este nuevo modelo de IA de Facebook puede traducir o editar texto directamente en la imagen en su propio idioma, siguiendo el mismo estilo!
Imagine que está de vacaciones en otro país donde no habla el idioma. Desea probar un restaurante local, pero su menú está en el idioma que no habla. Creo que esto no será demasiado difícil de imaginar, ya que la mayoría de nosotros ya enfrentamos esta situación, ya sea que vea elementos de menú o direcciones y no pueda entender lo que está escrito. Bueno, en 2020, sacarías tu teléfono y traduciría Google lo que ve. En 2021 ya ni siquiera necesita abrir el traductor de Google e intentar escribir lo que ve uno por uno para traducirlo. En cambio, simplemente puede usar este nuevo modelo de Facebook AI para traducir cada texto en la imagen en su propio idioma ...
Si también desea leer más trabajos de investigación, le recomiendo que lea mi artículo donde comparto mis mejores consejos para encontrar y leer más trabajos de investigación.
Este modelo toma una imagen, entiende qué partículas se supone que se mueven y las animan de manera realista en un bucle infinito mientras conserva el resto de la imagen completamente creando videos de aspecto increíble como este ...
¡Usando una arquitectura GaN modificada, pueden mover objetos en la imagen sin afectar el fondo o los otros objetos!
¡Descubra cómo este nuevo modelo de OpenAI genera código a partir de palabras!
Utilizando múltiples algoritmos basados en el aprendizaje automático que se ejecutan en privado en su dispositivo, Apple le permite curar y organizar con precisión sus imágenes y videos en iOS 15.
¡Diga adiós a las complejas arquitecturas de GaN y Transformer para la generación de imágenes! Este nuevo método de Chenling Meng et al. de la Universidad de Stanford y la Universidad Carnegie Mellon pueden generar nuevas imágenes a partir de cualquier entrada basada en el usuario. Incluso personas como yo con cero habilidades artísticas ahora pueden generar hermosas imágenes o modificaciones a partir de bocetos rápidos ...
¡Hacer que el entrenamiento GAN sea más fácil para todos generando imágenes después de un boceto! De hecho, con este nuevo método, puede controlar las salidas de su GaN en función del tipo de conocimiento más simple que podría proporcionarlo: bocetos dibujados a mano.
Si se pregunta cómo un automóvil Tesla no solo puede ver sino navegar por las carreteras con otros vehículos, este es el video que estaba esperando. Hace un par de días fue el primer día de Tesla AI donde Andrej Karpathy, el director de IA en Tesla, y otros presentaron cómo funciona el piloto automático de Tesla desde la adquisición de imágenes a través de sus ocho cámaras al proceso de navegación en las carreteras.
La IA podría generar imágenes, luego, utilizando una gran cantidad de capacidad intelectual, prueba y error, los investigadores podrían controlar los resultados después de estilos específicos. Ahora, con este nuevo modelo, ¡puedes hacerlo usando solo texto!
El tiempo puede comprender el movimiento de las partículas entre los marcos de un video para reconstruir lo que realmente sucedió a una velocidad que incluso nuestros ojos no pueden ver. De hecho, ¡logra resultados que nuestros teléfonos inteligentes y ningún otro modelos podrían llegar antes!
¡Suscríbase a mi boletín semanal y manténgase actualizado con nuevas publicaciones en IA para 2022!
¿Alguna vez has querido editar un video?
Retire o agregue a alguien, cambie el fondo, haga que dure un poco más o cambie la resolución para adaptarse a una relación de aspecto específica sin comprimirlo o estirarlo. Para aquellos de ustedes que ya realizaron campañas publicitarias, ciertamente desean tener variaciones de sus videos para las pruebas AB y ver qué funciona mejor. Bueno, esta nueva investigación de NIV Haim et al. ¡Puede ayudarlo a hacer todo esto con un solo video y en HD!
De hecho, con un video simple, puede realizar cualquier tarea que acabo de mencionar en segundos o unos minutos para videos de alta calidad. Básicamente, puede usarlo para cualquier aplicación de manipulación de video o generación de video que tenga en mente. ¡Incluso supera a Gans de todos los sentidos y no utiliza ninguna investigación elegante de aprendizaje profundo ni requiere un conjunto de datos enorme y poco práctico! Y lo mejor es que esta técnica es escalable para videos de alta resolución.
Deepmind acaba de lanzar un modelo generativo capaz de superar los métodos de transmisión de ahora ampliamente utilizados en el 89% de las situaciones por su precisión y utilidad evaluadas por más de 50 meteorólogos expertos. Su modelo se centra en predecir las precipitaciones en las próximas 2 horas y logra eso sorprendentemente bien. Es un modelo generativo, lo que significa que generará los pronósticos en lugar de simplemente predecirlos. Básicamente toma datos de radar del pasado para crear datos de radar futuros. Entonces, utilizando componentes espaciales y de tiempo del pasado, pueden generar cómo se verá en el futuro cercano.
Puede ver esto como lo mismo que los filtros de Snapchat, tomar su cara y generar una nueva cara con modificaciones. Para entrenar un modelo tan generativo, necesita un montón de datos de las caras humanas y el tipo de cara que desea generar. Luego, utilizando un modelo muy similar entrenado durante muchas horas, tendrá un poderoso modelo generativo. Este tipo de modelo a menudo utiliza arquitecturas Gans para fines de capacitación y luego usa el modelo de generador de forma independiente.
¿Alguna vez te has sintonizado con un video o un programa de televisión y los actores eran completamente inaudibles, o la música era demasiado fuerte? Bueno, este problema, también llamado problema del cóctel, puede que nunca vuelva a suceder. Mitsubishi e Indiana University acaban de publicar un nuevo modelo, así como un nuevo conjunto de datos que aborda esta tarea de identificar la banda sonora correcta. Por ejemplo, si tomamos el mismo clip de audio, acabamos de ejecutar con la música demasiado fuerte, simplemente puede aparecer o bajar la pista de audio que desea dar más importancia al discurso que a la música.
El problema aquí es aislar cualquier fuente de sonido independiente de una escena acústica compleja como una escena de la película o un video de YouTube donde algunos sonidos no están bien equilibrados. A veces simplemente no puedes escuchar a algunos actores debido a la música o las explosiones u otros sonidos ambientales en el fondo. Bueno, si aísla con éxito las diferentes categorías en una banda sonora, significa que también puede subir o bajar solo una de ellas, como rechazar un poco la música para escuchar a todos los demás actores correctamente. Esto es exactamente lo que lograron los investigadores.
Imagine que desea generar un modelo 3D o simplemente un video fluido a partir de un montón de fotos que tomó. Bueno, ¡ahora es posible! No quiero dar demasiado, pero los resultados son simplemente increíbles y ¡debes verlo solo!
¿Alguna vez has soñado con tomar el estilo de una imagen, como este estilo de dibujo de Tiktok genial a la izquierda y aplicarlo a una nueva imagen de tu elección? Bueno, lo hice, y nunca ha sido más fácil de hacer. De hecho, incluso puede lograrlo con solo texto y puede probarlo en este momento con este nuevo método y su cuaderno de Google Colab disponible para todos (ver referencias). Simplemente tome una imagen del estilo que desea copiar, ingrese el texto que desea generar, ¡y este algoritmo generará una nueva imagen a partir de él! ¡Solo mira hacia atrás en los resultados anteriores, un paso tan grande adelante! ¡Los resultados son extremadamente impresionantes, especialmente si considera que estaban hechos de una sola línea de texto!
¿Alguna vez ha tenido una imagen que realmente le gustó y solo pudo encontrar una pequeña versión que se pareciera a esta imagen a continuación a la izquierda? ¿Qué tan genial sería si pudieras tomar esta imagen y hacer que se vea dos veces tan bien? Es genial, pero ¿qué pasaría si pudieras hacerlo incluso cuatro u ocho veces más de alta definición? Ahora estamos hablando, solo mira eso.
Aquí mejoramos la resolución de la imagen por un factor de cuatro, lo que significa que tenemos cuatro veces más píxeles de altura y ancho para más detalles, lo que hace que se vea mucho más suave. Lo mejor es que esto se hace en unos segundos, completamente automáticamente, y funciona con casi cualquier imagen. Ah, e incluso puedes usarlo tú mismo con una demostración que pusieron a disposición ...
¡Controle cualquier característica de borradores rápidos, y solo editará lo que desea mantener el resto de la imagen igual! Edición de imágenes SOTA del modelo de bocetos basado en Gans de Nvidia, MIT y Uoft.
El modelo se llama Citynerf y crece de Nerf, que anteriormente cubrí en mi canal. NERF es uno de los primeros modelos que utiliza campos de radiancia y aprendizaje automático para construir modelos 3D a partir de imágenes. Pero Nerf no es tan eficiente y funciona para una única escala. Aquí, Citynerf se aplica a imágenes satelitales y a nivel del suelo al mismo tiempo para producir varias escalas de modelo 3D para cualquier punto de vista. En palabras simples, traen a Nerf a la escala de la ciudad. ¿Pero cómo?
Hemos visto la IA generar imágenes de otras imágenes usando Gans. Luego, había modelos capaces de generar imágenes cuestionables usando texto. A principios de 2021, se publicó Dall-E, superando todos los intentos anteriores de generar imágenes a partir de la entrada de texto usando Clip, un modelo que vincula las imágenes con el texto como guía. Una tarea muy similar llamada subtítulos de imagen puede sonar realmente simple pero, de hecho, es igual de compleja. Es la capacidad de una máquina para generar una descripción natural de una imagen. Es fácil simplemente etiquetar los objetos que ve en la imagen, pero es otro desafío comprender lo que está sucediendo en una sola imagen bidimensional, y este nuevo modelo lo hace extremadamente bien ...
Si desea leer más documentos y tener una visión más amplia, aquí hay otro gran repositorio para usted que cubre 2020: 2020: un año lleno de documentos de IA increíbles: una revisión y no dude en suscribirse a mi boletín semanal y mantenerse al día ¡Date con nuevas publicaciones en IA para 2022!
¡Etiquetame en Twitter @Whats_Ai o LinkedIn @louis (What's AI) Bouchard si comparte la lista!
[1] A. Ramesh et al., Generación de texto a imagen de disparo cero, 2021. ARXIV: 2102.12092
[2] Lewis, Kathleen M et al., (2021), Vogue: prueba de optimización de interpolación de Stylegan.
[3] Taming Transformers para la síntesis de imágenes de alta resolución, Esser et al., 2020.
[4] Pensando rápido y lento en AI, Booch et al., (2020), https://arxiv.org/abs/2010.06002.
[5] Odei Garcia-Garin et al., Detección automática y cuantificación de la macro-litera marina flotante en imágenes aéreas: introducir un nuevo enfoque de aprendizaje profundo conectado a una aplicación web en R, contaminación ambiental, https://doi.org/ 10.1016/j.envpol.2021.116490.
[6] Rematas, K., Martin-Brualla, R. y Ferrari, V., "Sharf: campos de radiancia con forma de forma desde una sola vista", (2021), https://arxiv.org/abs/2102.08860
[7] Drew A. Hudson y C. Lawrence Zitnick, Transformadores adversos generativos, (2021)
[8] Sandra Bryant et al., “Pedimos inteligencia artificial que creara perfiles de citas. ¿Te deslizarías, verdad? ”, (2021), Blog de UNSW Sydney.
[9] Liu, Z. et al., 2021, "Transformador de giro: transformador de visión jerárquica usando ventanas cambiadas", preprint arxiv https://arxiv.org/abs/2103.14030v1
[10] Zhang, Y., Chen, W., Ling, H., Gao, J., Zhang, Y., Torralba, A. y Fidler, S., 2020. Las gans de imágenes cumplen con la representación diferenciable de los gráficos inversos e interpretables Representación neural 3d. Preimpresión ARXIV ARXIV: 2010.09125.
[11] Yuille, Al y Liu, C., 2021. Redes profundas: ¿Qué han hecho alguna vez para la visión? International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.
[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf
[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452
[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.
[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.
[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.
[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.
[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.
[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.
[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.
[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.
[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.
[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.
[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos
[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.
[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).
[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M
[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249
[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 , http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf
[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.
[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z
[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.
[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.
[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.
[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).
[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.
[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.
[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734