best_AI_papers_2021 Descargar - best_AI_papers

best_AI_papers_2021

Otro código fuente

1.0.0

Descargar

2021: ¿Un año lleno de increíbles documentos de IA: ¿una reseña?

Una lista curada de los últimos avances en AI por fecha de lanzamiento con una explicación de video clara, enlace a un artículo más profundo y código.

Mientras el mundo todavía se está recuperando, la investigación no ha ralentizado su ritmo frenético, especialmente en el campo de la inteligencia artificial. Más, muchos aspectos importantes se destacaron este año, como los aspectos éticos, los sesgos importantes, la gobernanza, la transparencia y mucho más. La inteligencia artificial y nuestra comprensión del cerebro humano y su vínculo con la IA evolucionan constantemente, mostrando aplicaciones prometedoras que mejoran la calidad de nuestra vida en el futuro cercano. Aún así, debemos tener cuidado con la tecnología que elegimos aplicar.

"La ciencia no puede decirnos qué debemos hacer, solo lo que podemos hacer".
- Jean-Paul Sartre, ser y nada

Estos son los trabajos de investigación más interesantes del año, en caso de que te hayas perdido alguno de ellos. En resumen, se ha curado la lista de los últimos avances en IA y ciencia de datos por fecha de lanzamiento con una explicación de video clara, enlace a un artículo más profundo y código (si corresponde). ¡Disfruta de la lectura!

La referencia completa a cada documento se enumera al final de este repositorio. ¡Estrata este repositorio para mantenerse actualizado! ️

Mantenedor: LouisFB01

Suscríbase a mi boletín: las últimas actualizaciones en AI explicadas cada semana.

Siéntase libre de enviarme un mensaje interesante que me haya perdido para agregar a este repositorio.

¡Etiquetame en Twitter @Whats_Ai o LinkedIn @louis (What's AI) Bouchard si comparte la lista!

Mira un rebobinado 2021 completo en 15 minutos

Si está interesado en la investigación de la visión por computadora, aquí hay otro gran repositorio para usted:

Una lista curada de las 10 principales publicaciones de CV en 2021 con una explicación de video clara, enlace a un artículo más profundo y código.

Los 10 mejores documentos de visión por computadora de 2021

? Si desea apoyar mi trabajo y usar W&B (de forma gratuita) para rastrear sus experimentos de ML y hacer que su trabajo sea reproducible o colaborar con un equipo, ¡puede probarlo siguiendo esta guía! Dado que la mayor parte del código aquí está basado en Pytorch, pensamos que una guía rápida para usar W&B en Pytorch sería más interesante compartir.

Siga esta guía rápida, use las mismas líneas W&B en su código o en cualquiera de los reposos a continuación, ¡y haga que todos sus experimentos rastreen automáticamente en su cuenta W&B! ¡No lleva más de 5 minutos establecerse y cambiará tu vida como lo hizo para mí! Aquí hay una guía más avanzada para usar barridos de hiperparámetro si está interesado :)

? ¡Gracias a pesas y prejuicios por patrocinar este repositorio y el trabajo que he estado haciendo, y gracias a cualquiera de ustedes que usa este enlace e intenta W&B!

La lista completa

Dall · E: Generación de texto a imagen de disparo cero desde Openai [1]
Vogue: Trying by Stylegan Interpolation Optimization [2]
Taming Transformers para la síntesis de imágenes de alta resolución [3]
Pensando rápido y lento en IA [4]
Detección automática y cuantificación de la macro-lanza marina flotante en imágenes aéreas [5]
Sharf: campos de radiancia con forma de forma desde una sola vista [6]
Transformadores adversos generativos [7]
Le pedimos a la inteligencia artificial que creara perfiles de citas. ¿Te deslizarías bien? [8]
Transformador de láminas: transformador de visión jerárquica usando ventanas cambiadas [9]
Image Gans cumple con la representación diferenciable de gráficos inversos y representación neuronal 3D interpretable [10]
Redes profundas: ¿Qué han hecho alguna vez para la visión? [11]
Naturaleza infinita: Generación de escenas naturales de visión perpetua de una sola imagen [12]
Mano neuroprotésica portátil y autónoma con control de los dedos basado en el aprendizaje profundo [13]
Llamación total: aprender a volver a encender los retratos para el reemplazo de antecedentes [14]
LASR: Reconstrucción de forma articulada de aprendizaje a partir de un video monocular [15]
Mejora de la mejora del fotorrealismo [16]
Defakehop: un detector de defake de alto rendimiento de peso ligero [17]
Traducción de imágenes fotorrealistas de alta resolución en tiempo real: una red de traducción piramidal de laplacia [18]
Barbershop: composición de imágenes basadas en GaN utilizando máscaras de segmentación [19]
TextStyleBrush: transferencia de estética de texto a partir de un solo ejemplo [20]
Animando imágenes con Eulerian Motion Fields [21]
CVPR 2021 Premio al mejor documento: jirafa - Generación de imágenes controlable [22]
GitHub Copilot & Codex: Evaluación de modelos de lenguaje grandes capacitados en el código [23]
Apple: Reconocer a las personas en fotos a través del aprendizaje automático privado en el dispositivo [24]
Síntesis de imágenes y edición con ecuaciones diferenciales estocásticas [25]
Dibuje tu propio gan [26]
El piloto automático de Tesla explicó [27]
StyleClip: manipulación impulsada por el texto de imágenes de Stylegan [28]
Tiempo de tiempo: interpolación de marco de video basado en eventos [29]
Generación diversa de un solo video hecho posible [30]
Precipitación hábil que ahora se encuentra utilizando modelos generativos profundos de radar [31]
El problema de la bifurcación de cócteles: separación de audio de tres casos para bandas sonoras del mundo real [32]
Adopt: Representación de puntos de un píxel diferenciable aproximado [33]
(Estilo) ClipDraw: Contenido de acoplamiento y estilo en la síntesis de texto a dibujo [34]
Swinir: restauración de imágenes con transformador de cañón [35]
Editgan: edición de imágenes semánticas de alta precisión [36]
Citynerf: edificio nerf a escala de la ciudad [37]
ClipCap: Prefijo de clip para subtítulos de imagen [38]
Referencias en papel

Dall · E: Generación de texto a imagen de disparo cero desde Openai [1]

OpenAI capacitó con éxito una red capaz de generar imágenes a partir de subtítulos de texto. Es muy similar a GPT-3 e Image GPT y produce resultados sorprendentes.

Explicación de video breve:
Lectura corta: Dall · E: Generación de texto a imagen explicada
Documento: Generación de texto a imagen de disparo cero
Código: Código y más información para el VAE discreto utilizado para Dall · E

Vogue: Trying by Stylegan Interpolation Optimization [2]

Google usó una arquitectura de StyleGan2 modificada para crear una sala de ajuste en línea donde puede probar automáticamente cualquier pantalón o camisa que desee usar solo una imagen de usted mismo.

Explicación de video breve:
Lectura corta: la sala de ajuste en línea con IA: Vogue
Documento: Vogue: Trying by Stylegan Optimización de interpolación

Taming Transformers para la síntesis de imágenes de alta resolución [3]

TL; DR: Combinaron la eficiencia de los GANS y los enfoques convolucionales con la expresividad de los transformadores para producir un método potente y eficiente en el tiempo para la síntesis de imágenes de alta calidad guiada semánticamente.

Explicación de video breve:
Lectura corta: Combinación de la expresividad de transformadores con la eficiencia CNNS para la síntesis de imágenes de alta resolución
Documento: Taming Transformers para la síntesis de imágenes de alta resolución
Código: Taming Transformers

Pensando rápido y lento en IA [4]

Inspirarse en las capacidades humanas hacia una AI más general y confiable y 10 preguntas para la comunidad de investigación de IA.

Explicación de video breve:
Lectura corta: Tercera ola de AI | Pensando rápido y lento
Documento: Pensar rápido y lento en IA

Detección automática y cuantificación de la macro-lanza marina flotante en imágenes aéreas [5]

Odei García-Garin et al. de la Universidad de Barcelona ha desarrollado un algoritmo basado en el aprendizaje profundo capaz de detectar y cuantificar la basura flotante de las imágenes aéreas. También hicieron una aplicación orientada a la web que permitió a los usuarios identificar estos guardianes, llamados macro-lámina marina flotante, o FMML, dentro de las imágenes de la superficie del mar.

Explicación de video breve:
Lectura corta: un software de IA capaz de detectar y contar desechos plásticos en el océano
Documento: Detección automática y cuantificación de la macro-lanza marina flotante en imágenes aéreas: introducir un nuevo enfoque de aprendizaje profundo conectado a una aplicación web en R, contaminación ambiental
Haga clic aquí para ver el código

Sharf: campos de radiancia con forma de forma desde una sola vista [6]

Solo imagine lo genial que sería tomar una foto de un objeto y tenerlo en 3D para insertar en la película o el videojuego que está creando o en una escena 3D para una ilustración.

Explicación de video breve:
Lectura corta: Sharf: Tome una foto de un objeto de la vida real y cree un modelo 3D de él
Documento: Sharf: campos de radiancia con forma de forma desde una sola vista
Haga clic aquí para ver el código

Transformadores adversos generativos [7]

¡Básicamente aprovechan el mecanismo de atención de los transformadores en la poderosa arquitectura StyleGan2 para que sea aún más poderosa!

Explicación de video breve:
Lectura corta: Gansformers: Generación de escenas con transformadores adversos generativos
Documento: transformadores adversos generativos
Haga clic aquí para ver el código

¡Suscríbase a mi boletín semanal y manténgase actualizado con nuevas publicaciones en IA para 2022!

Le pedimos a la inteligencia artificial que creara perfiles de citas. ¿Te deslizarías bien? [8]

¿Te deslizarías directamente en un perfil de IA? ¿Puedes distinguir a un humano real de una máquina? Esto es lo que este estudio revela el uso de personas hechas de IA en aplicaciones de citas.

Explicación de video breve:
Lectura corta: ¿Te deslizarías directamente en un perfil de IA?
Documento: Le pedimos a la inteligencia artificial que creara perfiles de citas. ¿Te deslizarías bien?
Haga clic aquí para ver el código

Transformador de láminas: transformador de visión jerárquica usando ventanas cambiadas [9]

¿Los transformadores reemplazarán los CNN en la visión por computadora? En menos de 5 minutos, sabrá cómo la arquitectura del transformador se puede aplicar a la visión por computadora con un nuevo artículo llamado Transformador Swin.

Explicación de video breve:
Lectura corta: ¿Reemplazarán los transformadores CNN en la visión de la computadora?
Documento: Transformador de giro: transformador de visión jerárquica usando ventanas desplazadas
Haga clic aquí para ver el código

Image Gans cumple con la representación diferenciable de gráficos inversos y representación neuronal 3D interpretable [10]

¡Este modelo prometedor llamado Ganverse3D solo necesita una imagen para crear una figura 3D que se pueda personalizar y animar!

Explicación de video breve:
Lectura corta: ¡Crea modelos 3D a partir de imágenes! Ganverse3d y nvidia omniverse
Documento: las Gans de imágenes cumplen con la representación diferenciable de gráficos inversos y representación neuronal 3D interpretable

Redes profundas: ¿Qué han hecho alguna vez para la visión? [11]

"Compartiré abiertamente todo sobre redes profundas para aplicaciones de visión, sus éxitos y las limitaciones que tenemos que abordar".

Explicación de video breve:
Lectura corta: ¿Cuál es el estado de la IA en la visión por computadora?
Documento: Redes profundas: ¿Qué han hecho alguna vez para la visión?

Naturaleza infinita: Generación de escenas naturales de visión perpetua de una sola imagen [12]

¡El siguiente paso para la síntesis de vistas: generación de vista perpetua, donde el objetivo es tomar una imagen para volar en ella y explorar el paisaje!

Explicación de video breve:
Lectura corta: Naturaleza infinita: vuela a una imagen y explora el paisaje
Documento: Naturaleza infinita: Vista perpetua Generación de escenas naturales a partir de una sola imagen
Haga clic aquí para ver el código
Demostración de colab

Mano neuroprotésica portátil y autónoma con control de los dedos basado en el aprendizaje profundo [13]

Con esta interfaz nerviosa alimentada por IA, el amputado puede controlar una mano neuroprotésica con destreza e intuitividad realista.

Explicación de video breve:
Leer corta: ¡un amputado con una mano con IA! ?
Documento: mano neuropropostética portátil y autónoma con control de dedo basado en el aprendizaje profundo

Llamación total: aprender a volver a encender los retratos para el reemplazo de antecedentes [14]

Alquile correctamente cualquier retrato basado en la iluminación del nuevo fondo que agregue. ¿Alguna vez has querido cambiar el fondo de una imagen pero que parece realista? Si ya lo ha intentado, ya sabe que no es simple. No puedes simplemente tomarte una foto en tu casa y cambiar el fondo de una playa. Simplemente se ve mal y no realista. Cualquiera solo dirá "eso es Photoshopped" en un segundo. Para películas y videos profesionales, necesita la iluminación perfecta y los artistas para reproducir una imagen de alta calidad, y eso es muy caro. No hay forma de que puedas hacer eso con tus propias fotos. ¿O puedes?

Explicación de video breve:
Lectura corta: iluminación realista sobre diferentes fondos
Documento: Total de alivio: aprender a volver a encender los retratos para el reemplazo de fondo

LASR: Reconstrucción de forma articulada de aprendizaje a partir de un video monocular [15]

Genere modelos 3D de humanos o animales que se muevan de solo un video corto como entrada. Este es un nuevo método para generar modelos 3D de humanos o animales que se mueven de solo un video corto como entrada. De hecho, en realidad entiende que esta es una forma extraña, que puede moverse, pero aún necesita permanecer adjunta, ya que sigue siendo un "objeto" y no solo muchos objetos juntos ...

Explicación de video breve:
Lectura corta: Reconstrucción 3D articulada a partir de videos
Documento: LASR: Reconstrucción de forma articulada de aprendizaje de un video monocular
Haga clic aquí para ver el código

Mejora de la mejora del fotorrealismo [16]

Esta IA se puede aplicar en vivo al videojuego y transformar cada cuadro para que se vea mucho más natural. Los investigadores de Intel Labs acaban de publicar este artículo llamado Mejora de la mejora del fotorrealismo. Y si crees que esto puede ser "solo otra ganancia", tomando una foto del videojuego como una entrada y cambiarlo siguiendo el estilo del mundo natural, déjame cambiar tu mente. Trabajaron en este modelo durante dos años para hacerlo extremadamente robusto. Se puede aplicar en vivo al videojuego y transformar cada cuadro para que se vea mucho más natural. Imagine las posibilidades en las que puede poner mucho menos esfuerzo en el gráfico del juego, hacerlo súper estable y completo, luego mejorar el estilo usando este modelo ...

Explicación de video breve:
Lectura corta: ¿Es AI el futuro del diseño de videojuegos? Mejora de la mejora del fotorrealismo
Documento: Mejora de la mejora del fotorrealismo
Haga clic aquí para ver el código

Defakehop: un detector de defake de alto rendimiento de peso ligero [17]

Cómo detectar una falsificación profunda en 2021. Breakthroughthrough Technology del Ejército de EE. UU. Usando inteligencia artificial para encontrar defectos profundos.

Si bien parece que siempre han estado allí, el primer Deepfake realista no apareció hasta 2017. Pasó de la primera vez que se asemeja a imágenes falsas generadas automáticamente a la copia idéntica de alguien en videos de hoy, con sonido.

La realidad es que ya no podemos ver la diferencia entre un video o imagen real y un defake profundo. ¿Cómo podemos saber qué es real de lo que no? ¿Cómo se pueden usar archivos de audio o archivos de video en la corte como prueba si una IA puede generarlos por completo? Bueno, este nuevo artículo puede proporcionar respuestas a estas preguntas. Y la respuesta aquí puede ser nuevamente el uso de la inteligencia artificial. El dicho "lo creeré cuando lo veré" pronto puede cambiar por "Lo creeré cuando la IA me dice que lo crea ..."

Explicación de video breve:
Lectura corta: Cómo detectar una falsa profunda. Breakthrough Technology del Ejército de los EE. UU. (2021)
Documento: Desfakehop: un detector de defake de alto rendimiento de peso ligero

Traducción de imágenes fotorrealistas de alta resolución en tiempo real: una red de traducción piramidal de laplacia [18]

¡Aplique cualquier estilo a su imagen 4K en tiempo real utilizando este nuevo enfoque basado en el aprendizaje automático!

Explicación de video breve:
Lectura corta: traducción de imágenes fotorrealistas de alta resolución en tiempo real
Documento: Traducción de imagen fotorrealista de alta resolución en tiempo real: una red de traducción piramidal de laplacia
Haga clic aquí para ver el código

Barbershop: composición de imágenes basadas en GaN utilizando máscaras de segmentación [19]

Este artículo no se trata de una nueva tecnología en sí misma. En cambio, se trata de una aplicación nueva y emocionante de Gans. De hecho, viste el título y no era Clickbait. Esta IA puede transferir su cabello para ver cómo se vería antes de comprometerse con el cambio ...

Explicación de video breve:
Lectura corta: Barbershop: prueba diferentes peinados y colores de cabello a partir de imágenes (Gans)
Documento: Barbershop: composición de imágenes basadas en GaN utilizando máscaras de segmentación
Haga clic aquí para ver el código

TextStyleBrush: transferencia de estética de texto a partir de un solo ejemplo [20]

¡Este nuevo modelo de IA de Facebook puede traducir o editar texto directamente en la imagen en su propio idioma, siguiendo el mismo estilo!

Imagine que está de vacaciones en otro país donde no habla el idioma. Desea probar un restaurante local, pero su menú está en el idioma que no habla. Creo que esto no será demasiado difícil de imaginar, ya que la mayoría de nosotros ya enfrentamos esta situación, ya sea que vea elementos de menú o direcciones y no pueda entender lo que está escrito. Bueno, en 2020, sacarías tu teléfono y traduciría Google lo que ve. En 2021 ya ni siquiera necesita abrir el traductor de Google e intentar escribir lo que ve uno por uno para traducirlo. En cambio, simplemente puede usar este nuevo modelo de Facebook AI para traducir cada texto en la imagen en su propio idioma ...

Explicación de video breve:
Lectura corta: traducir o editar texto a partir de imágenes que emulan el estilo: TextStyleBrush
Documento: TextStyleBrush: Transferencia de estética de texto a partir de un solo ejemplo
Haga clic aquí para ver el código

Si también desea leer más trabajos de investigación, le recomiendo que lea mi artículo donde comparto mis mejores consejos para encontrar y leer más trabajos de investigación.

Animando imágenes con Eulerian Motion Fields [21]

Este modelo toma una imagen, entiende qué partículas se supone que se mueven y las animan de manera realista en un bucle infinito mientras conserva el resto de la imagen completamente creando videos de aspecto increíble como este ...

Explicación de video breve:
Lectura corta: Crear videos de bucle animado realista a partir de imágenes
Papel: Animando imágenes con Eulerian Motion Fields
Haga clic aquí para ver el código

CVPR 2021 Premio al mejor documento: jirafa - Generación de imágenes controlable [22]

¡Usando una arquitectura GaN modificada, pueden mover objetos en la imagen sin afectar el fondo o los otros objetos!

Explicación de video breve:
Lectura corta: CVPR 2021 Premio al Mejor Papel: Giraffe - Generación de imágenes controlables
Documento: jirafa: representar escenas como campos de características neuronales generativas compositivas
Haga clic aquí para ver el código

GitHub Copilot & Codex: Evaluación de modelos de lenguaje grandes capacitados en el código [23]

¡Descubra cómo este nuevo modelo de OpenAI genera código a partir de palabras!

Explicación de video breve:
Lectura corta: NUEVO CÓDIGO DE OPERAI Generador: GitHub Copilot (y Codex)
Documento: Evaluación de modelos de idiomas grandes capacitados en código
Haga clic aquí para ver el código

Apple: Reconocer a las personas en fotos a través del aprendizaje automático privado en el dispositivo [24]

Utilizando múltiples algoritmos basados en el aprendizaje automático que se ejecutan en privado en su dispositivo, Apple le permite curar y organizar con precisión sus imágenes y videos en iOS 15.

Explicación de video breve:
Lectura corta: Cómo Apple Photos reconoce a las personas en fotos privadas usando el aprendizaje automático
Documento: Reconocer a las personas en fotos a través del aprendizaje automático privado en el dispositivo

Síntesis de imágenes y edición con ecuaciones diferenciales estocásticas [25]

¡Diga adiós a las complejas arquitecturas de GaN y Transformer para la generación de imágenes! Este nuevo método de Chenling Meng et al. de la Universidad de Stanford y la Universidad Carnegie Mellon pueden generar nuevas imágenes a partir de cualquier entrada basada en el usuario. Incluso personas como yo con cero habilidades artísticas ahora pueden generar hermosas imágenes o modificaciones a partir de bocetos rápidos ...

Explicación de video breve:
Lectura corta: Síntesis de imágenes y edición de bocetos: SDEDIT. ¡No se necesita más entrenamiento tedioso!
Documento: síntesis de imágenes y edición con ecuaciones diferenciales estocásticas
Haga clic aquí para ver el código
Demostración de colab

Dibuje tu propio gan [26]

¡Hacer que el entrenamiento GAN sea más fácil para todos generando imágenes después de un boceto! De hecho, con este nuevo método, puede controlar las salidas de su GaN en función del tipo de conocimiento más simple que podría proporcionarlo: bocetos dibujados a mano.

Explicación de video breve:
Lectura corta: facilitar el entrenamiento de Gans para todos: Genere imágenes después de un boceto
Documento: Dibuje tu propio gan
Haga clic aquí para ver el código

El piloto automático de Tesla explicó [27]

Si se pregunta cómo un automóvil Tesla no solo puede ver sino navegar por las carreteras con otros vehículos, este es el video que estaba esperando. Hace un par de días fue el primer día de Tesla AI donde Andrej Karpathy, el director de IA en Tesla, y otros presentaron cómo funciona el piloto automático de Tesla desde la adquisición de imágenes a través de sus ocho cámaras al proceso de navegación en las carreteras.

Explicación de video breve:
Lectura corta: el piloto automático de Tesla explicó

StyleClip: manipulación impulsada por el texto de imágenes de Stylegan [28]

La IA podría generar imágenes, luego, utilizando una gran cantidad de capacidad intelectual, prueba y error, los investigadores podrían controlar los resultados después de estilos específicos. Ahora, con este nuevo modelo, ¡puedes hacerlo usando solo texto!

Explicación de video breve:
Leer corta: Manipule imágenes reales con texto: ¡una IA para artistas creativos! STYLECLIP explicó
Documento: StyLeClip: manipulación impulsada por el texto de imágenes de Stylegan.
Haga clic aquí para ver el código
Demostración de colab

Tiempo de tiempo: interpolación de marco de video basado en eventos [29]

El tiempo puede comprender el movimiento de las partículas entre los marcos de un video para reconstruir lo que realmente sucedió a una velocidad que incluso nuestros ojos no pueden ver. De hecho, ¡logra resultados que nuestros teléfonos inteligentes y ningún otro modelos podrían llegar antes!

Explicación de video breve:
Lectura corta: ¡Cómo hacer videos de cámara lenta con AI!
Documento: Tiempo de tiempo: interpolación de cuadro de video basado en eventos
Haga clic aquí para ver el código

¡Suscríbase a mi boletín semanal y manténgase actualizado con nuevas publicaciones en IA para 2022!

Generación diversa de un solo video hecho posible [30]

¿Alguna vez has querido editar un video?

Retire o agregue a alguien, cambie el fondo, haga que dure un poco más o cambie la resolución para adaptarse a una relación de aspecto específica sin comprimirlo o estirarlo. Para aquellos de ustedes que ya realizaron campañas publicitarias, ciertamente desean tener variaciones de sus videos para las pruebas AB y ver qué funciona mejor. Bueno, esta nueva investigación de NIV Haim et al. ¡Puede ayudarlo a hacer todo esto con un solo video y en HD!

De hecho, con un video simple, puede realizar cualquier tarea que acabo de mencionar en segundos o unos minutos para videos de alta calidad. Básicamente, puede usarlo para cualquier aplicación de manipulación de video o generación de video que tenga en mente. ¡Incluso supera a Gans de todos los sentidos y no utiliza ninguna investigación elegante de aprendizaje profundo ni requiere un conjunto de datos enorme y poco práctico! Y lo mejor es que esta técnica es escalable para videos de alta resolución.

Explicación de video breve:
Lectura corta: Genere variaciones de video: ¡no se requiere ningún conjunto de datos o aprendizaje profundo!
Documento: diversa generación de un solo video hecho posible
Haga clic aquí para ver el código

Precipitación hábil que ahora se encuentra utilizando modelos generativos profundos de radar [31]

Deepmind acaba de lanzar un modelo generativo capaz de superar los métodos de transmisión de ahora ampliamente utilizados en el 89% de las situaciones por su precisión y utilidad evaluadas por más de 50 meteorólogos expertos. Su modelo se centra en predecir las precipitaciones en las próximas 2 horas y logra eso sorprendentemente bien. Es un modelo generativo, lo que significa que generará los pronósticos en lugar de simplemente predecirlos. Básicamente toma datos de radar del pasado para crear datos de radar futuros. Entonces, utilizando componentes espaciales y de tiempo del pasado, pueden generar cómo se verá en el futuro cercano.

Puede ver esto como lo mismo que los filtros de Snapchat, tomar su cara y generar una nueva cara con modificaciones. Para entrenar un modelo tan generativo, necesita un montón de datos de las caras humanas y el tipo de cara que desea generar. Luego, utilizando un modelo muy similar entrenado durante muchas horas, tendrá un poderoso modelo generativo. Este tipo de modelo a menudo utiliza arquitecturas Gans para fines de capacitación y luego usa el modelo de generador de forma independiente.

Explicación de video breve:
Lectura corta: DeepMind usa IA para predecir pronósticos meteorológicos más precisos
Documento: precipitación hábil ahora transmitiendo medios generativos de radar generativos profundos
Haga clic aquí para ver el código

El problema de la bifurcación de cócteles: separación de audio de tres casos para bandas sonoras del mundo real [32]

¿Alguna vez te has sintonizado con un video o un programa de televisión y los actores eran completamente inaudibles, o la música era demasiado fuerte? Bueno, este problema, también llamado problema del cóctel, puede que nunca vuelva a suceder. Mitsubishi e Indiana University acaban de publicar un nuevo modelo, así como un nuevo conjunto de datos que aborda esta tarea de identificar la banda sonora correcta. Por ejemplo, si tomamos el mismo clip de audio, acabamos de ejecutar con la música demasiado fuerte, simplemente puede aparecer o bajar la pista de audio que desea dar más importancia al discurso que a la música.

El problema aquí es aislar cualquier fuente de sonido independiente de una escena acústica compleja como una escena de la película o un video de YouTube donde algunos sonidos no están bien equilibrados. A veces simplemente no puedes escuchar a algunos actores debido a la música o las explosiones u otros sonidos ambientales en el fondo. Bueno, si aísla con éxito las diferentes categorías en una banda sonora, significa que también puede subir o bajar solo una de ellas, como rechazar un poco la música para escuchar a todos los demás actores correctamente. Esto es exactamente lo que lograron los investigadores.

Explicación de video breve:
Lectura corta: voz aislada, música y efectos de sonido con AI
Papel: The Cocktail Fork Problem: Separación de audio de tres casos para bandas sonoras del mundo real
Haga clic aquí para ver el código

Adopt: Representación de puntos de un píxel diferenciable aproximado [33]

Imagine que desea generar un modelo 3D o simplemente un video fluido a partir de un montón de fotos que tomó. Bueno, ¡ahora es posible! No quiero dar demasiado, pero los resultados son simplemente increíbles y ¡debes verlo solo!

Explicación de video breve:
Lectura corta: ¡AI sintetiza videos suaves de un par de imágenes!
Documento: Adop: Representación de puntos de un píxel diferenciable aproximado
Haga clic aquí para ver el código

(Estilo) ClipDraw: Contenido de acoplamiento y estilo en la síntesis de texto a dibujo [34]

¿Alguna vez has soñado con tomar el estilo de una imagen, como este estilo de dibujo de Tiktok genial a la izquierda y aplicarlo a una nueva imagen de tu elección? Bueno, lo hice, y nunca ha sido más fácil de hacer. De hecho, incluso puede lograrlo con solo texto y puede probarlo en este momento con este nuevo método y su cuaderno de Google Colab disponible para todos (ver referencias). Simplemente tome una imagen del estilo que desea copiar, ingrese el texto que desea generar, ¡y este algoritmo generará una nueva imagen a partir de él! ¡Solo mira hacia atrás en los resultados anteriores, un paso tan grande adelante! ¡Los resultados son extremadamente impresionantes, especialmente si considera que estaban hechos de una sola línea de texto!

Explicación de video breve:
Lectura corta: síntesis de texto a dibujo con control artístico | ClipDraw y styleclipdraw
Paper (ClipDraw): ClipDraw: Explorando la síntesis de texto a dibujo a través de codificadores de imágenes del lenguaje
Paper (styleclipdraw): styleclipdraw: contenido de acoplamiento y estilo en síntesis de texto a dibujo
Demo de clipdraw colab
STYLECLIPDRAW COLAB DEMO

Swinir: restauración de imágenes con transformador de cañón [35]

¿Alguna vez ha tenido una imagen que realmente le gustó y solo pudo encontrar una pequeña versión que se pareciera a esta imagen a continuación a la izquierda? ¿Qué tan genial sería si pudieras tomar esta imagen y hacer que se vea dos veces tan bien? Es genial, pero ¿qué pasaría si pudieras hacerlo incluso cuatro u ocho veces más de alta definición? Ahora estamos hablando, solo mira eso.

Aquí mejoramos la resolución de la imagen por un factor de cuatro, lo que significa que tenemos cuatro veces más píxeles de altura y ancho para más detalles, lo que hace que se vea mucho más suave. Lo mejor es que esto se hace en unos segundos, completamente automáticamente, y funciona con casi cualquier imagen. Ah, e incluso puedes usarlo tú mismo con una demostración que pusieron a disposición ...

Explicación de video breve:
Lectura corta: Swinir: Restauración de imágenes usando Swin Transformer
Documento: Swinir: Restauración de imágenes con Transformador Swin
Haga clic aquí para ver el código
Manifestación

Editgan: edición de imágenes semánticas de alta precisión [36]

¡Controle cualquier característica de borradores rápidos, y solo editará lo que desea mantener el resto de la imagen igual! Edición de imágenes SOTA del modelo de bocetos basado en Gans de Nvidia, MIT y Uoft.

Explicación de video breve:
Lectura corta: Nvidia Editgan: edición de imágenes con control completo de bocetos
Documento: Editgan: edición de imágenes semánticas de alta precisión
Haga clic aquí para ver el código (se lanzará pronto)

Citynerf: edificio nerf a escala de la ciudad [37]

El modelo se llama Citynerf y crece de Nerf, que anteriormente cubrí en mi canal. NERF es uno de los primeros modelos que utiliza campos de radiancia y aprendizaje automático para construir modelos 3D a partir de imágenes. Pero Nerf no es tan eficiente y funciona para una única escala. Aquí, Citynerf se aplica a imágenes satelitales y a nivel del suelo al mismo tiempo para producir varias escalas de modelo 3D para cualquier punto de vista. En palabras simples, traen a Nerf a la escala de la ciudad. ¿Pero cómo?

Explicación de video breve:
Lectura corta: Citynerf: ¡Modelado 3D a escala de la ciudad!
Documento: Citynerf: edificio nerf a escala de la ciudad
Haga clic aquí para ver el código (se lanzará pronto)

ClipCap: Prefijo de clip para subtítulos de imagen [38]

Hemos visto la IA generar imágenes de otras imágenes usando Gans. Luego, había modelos capaces de generar imágenes cuestionables usando texto. A principios de 2021, se publicó Dall-E, superando todos los intentos anteriores de generar imágenes a partir de la entrada de texto usando Clip, un modelo que vincula las imágenes con el texto como guía. Una tarea muy similar llamada subtítulos de imagen puede sonar realmente simple pero, de hecho, es igual de compleja. Es la capacidad de una máquina para generar una descripción natural de una imagen. Es fácil simplemente etiquetar los objetos que ve en la imagen, pero es otro desafío comprender lo que está sucediendo en una sola imagen bidimensional, y este nuevo modelo lo hace extremadamente bien ...

Explicación de video breve:
Lectura corta: Nuevo subtitulación de imágenes de SOTA: ClipCap
Paper: clipcap: clip prefijo para subtítulos
Haga clic aquí para ver el código
Haga clic aquí para la demostración de Colab

Si desea leer más documentos y tener una visión más amplia, aquí hay otro gran repositorio para usted que cubre 2020: 2020: un año lleno de documentos de IA increíbles: una revisión y no dude en suscribirse a mi boletín semanal y mantenerse al día ¡Date con nuevas publicaciones en IA para 2022!

¡Etiquetame en Twitter @Whats_Ai o LinkedIn @louis (What's AI) Bouchard si comparte la lista!

Referencias en papel

[1] A. Ramesh et al., Generación de texto a imagen de disparo cero, 2021. ARXIV: 2102.12092

[2] Lewis, Kathleen M et al., (2021), Vogue: prueba de optimización de interpolación de Stylegan.

[3] Taming Transformers para la síntesis de imágenes de alta resolución, Esser et al., 2020.

[4] Pensando rápido y lento en AI, Booch et al., (2020), https://arxiv.org/abs/2010.06002.

[5] Odei Garcia-Garin et al., Detección automática y cuantificación de la macro-litera marina flotante en imágenes aéreas: introducir un nuevo enfoque de aprendizaje profundo conectado a una aplicación web en R, contaminación ambiental, https://doi.org/ 10.1016/j.envpol.2021.116490.

[6] Rematas, K., Martin-Brualla, R. y Ferrari, V., "Sharf: campos de radiancia con forma de forma desde una sola vista", (2021), https://arxiv.org/abs/2102.08860

[7] Drew A. Hudson y C. Lawrence Zitnick, Transformadores adversos generativos, (2021)

[8] Sandra Bryant et al., “Pedimos inteligencia artificial que creara perfiles de citas. ¿Te deslizarías, verdad? ”, (2021), Blog de UNSW Sydney.

[9] Liu, Z. et al., 2021, "Transformador de giro: transformador de visión jerárquica usando ventanas cambiadas", preprint arxiv https://arxiv.org/abs/2103.14030v1

[10] Zhang, Y., Chen, W., Ling, H., Gao, J., Zhang, Y., Torralba, A. y Fidler, S., 2020. Las gans de imágenes cumplen con la representación diferenciable de los gráficos inversos e interpretables Representación neural 3d. Preimpresión ARXIV ARXIV: 2010.09125.

[11] Yuille, Al y Liu, C., 2021. Redes profundas: ¿Qué han hecho alguna vez para la visión? International Journal of Computer Vision, 129(3), pp.781–802, https://arxiv.org/abs/1805.04025.

[12] Liu, A., Tucker, R., Jampani, V., Makadia, A., Snavely, N. and Kanazawa, A., 2020. Infinite Nature: Perpetual View Generation of Natural Scenes from a Single Image, https://arxiv.org/pdf/2012.09855.pdf

[13] Nguyen & Drealan et al. (2021) A Portable, Self-Contained Neuroprosthetic Hand with Deep Learning-Based Finger Control: https://arxiv.org/abs/2103.13452

[14] Pandey et al., 2021, Total Relighting: Learning to Relight Portraits for Background Replacement, doi: 10.1145/3450626.3459872, https://augmentedperception.github.io/total_relighting/total_relighting_paper.pdf.

[15] Gengshan Yang et al., (2021), LASR: Learning Articulated Shape Reconstruction from a Monocular Video, CVPR, https://lasr-google.github.io/.

[16] Richter, Abu AlHaija, Koltun, (2021), "Enhancing Photorealism Enhancement", https://intel-isl.github.io/PhotorealismEnhancement/.

[17] DeepFakeHop: Chen, Hong-Shuo, et al., (2021), “DefakeHop: A Light-Weight High-Performance Deepfake Detector.” ArXiv abs/2103.06929.

[18] Liang, Jie and Zeng, Hui and Zhang, Lei, (2021), "High-Resolution Photorealistic Image Translation in Real-Time: A Laplacian Pyramid Translation Network", https://export.arxiv.org/pdf/2105.09188.pdf.

[19] Peihao Zhu et al., (2021), Barbershop, https://arxiv.org/pdf/2106.01505.pdf.

[20] Praveen Krishnan, Rama Kovvuri, Guan Pang, Boris Vassilev, and Tal Hassner, Facebook AI, (2021), ”TextStyleBrush: Transfer of text aesthetics from a single example”.

[21] Holynski, Aleksander, et al. “Animating Pictures with Eulerian Motion Fields.” Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2021.

[22] Michael Niemeyer and Andreas Geiger, (2021), "GIRAFFE: Representing Scenes as Compositional Generative Neural Feature Fields", Published in CVPR 2021.

[23] Chen, M., Tworek, J., Jun, H., Yuan, Q., Pinto, HPDO, Kaplan, J., Edwards, H., Burda, Y., Joseph, N., Brockman, G. and Ray, A., 2021. Evaluating large language models trained on code. arXiv preprint arXiv:2107.03374.

[24] Apple, “Recognizing People in Photos Through Private On-Device Machine Learning”, (2021), https://machinelearning.apple.com/research/recognizing-people-photos

[25] Meng, C., Song, Y., Song, J., Wu, J., Zhu, JY and Ermon, S., 2021. Sdedit: Image synthesis and editing with stochastic differential equations. arXiv preprint arXiv:2108.01073.

[26] Wang, SY, Bau, D. and Zhu, JY, 2021. Sketch Your Own GAN. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 14050-14060).

[27] “Tesla AI Day”, Tesla, August 19th 2021, https://youtu.be/j0z4FweCy4M

[28] Patashnik, Or, et al., (2021), “Styleclip: Text-driven manipulation of StyleGAN imagery.”, https://arxiv.org/abs/2103.17249

[29] Stepan Tulyakov*, Daniel Gehrig*, Stamatios Georgoulis, Julius Erbach, Mathias Gehrig, Yuanyou Li, Davide Scaramuzza, TimeLens: Event-based Video Frame Interpolation, IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Nashville, 2021 , http://rpg.ifi.uzh.ch/docs/CVPR21_Gehrig.pdf

[30] Haim, N., Feinstein, B., Granot, N., Shocher, A., Bagon, S., Dekel, T., & Irani, M. (2021). Diverse Generation from a Single Video Made Possible, https://arxiv.org/abs/2109.08591.

[31] Ravuri, S., Lenc, K., Willson, M., Kangin, D., Lam, R., Mirowski, P., Fitzsimons, M., Athanassiadou, M., Kashem, S., Madge, S. and Prudden, R., 2021. Skillful Precipitation Nowcasting using Deep Generative Models of Radar, https://www.nature.com/articles/s41586-021-03854-z

[32] Petermann, D., Wichern, G., Wang, Z., & Roux, JL (2021). The Cocktail Fork Problem: Three-Stem Audio Separation for Real-World Soundtracks. https://arxiv.org/pdf/2110.09958.pdf.

[33] Rückert, D., Franke, L. and Stamminger, M., 2021. ADOP: Approximate Differentiable One-Pixel Point Rendering, https://arxiv.org/pdf/2110.06635.pdf.

[34] a) CLIPDraw: exploring text-to-drawing synthesis through language-image encoders
b) StyleCLIPDraw: Schaldenbrand, P., Liu, Z. and Oh, J., 2021. StyleCLIPDraw: Coupling Content and Style in Text-to-Drawing Synthesis.

[35] Liang, J., Cao, J., Sun, G., Zhang, K., Van Gool, L. and Timofte, R., 2021. SwinIR: Image restoration using swin transformer. In Proceedings of the IEEE/CVF International Conference on Computer Vision (pp. 1833–1844).

[36] Ling, H., Kreis, K., Li, D., Kim, SW, Torralba, A. and Fidler, S., 2021, May. EditGAN: High-Precision Semantic Image Editing. In Thirty-Fifth Conference on Neural Information Processing Systems.

[37] Xiangli, Y., Xu, L., Pan, X., Zhao, N., Rao, A., Theobalt, C., Dai, B. and Lin, D., 2021. CityNeRF: Building NeRF at City Scale.

[38] Mokady, R., Hertz, A. and Bermano, AH, 2021. ClipCap: CLIP Prefix for Image Captioning. https://arxiv.org/abs/2111.09734

Expandir

Información adicional