Incluso con todo lo que sucedió en el mundo este año, todavía tuvimos la oportunidad de ver surgir muchas investigaciones sorprendentes. Especialmente en el campo de la inteligencia artificial y más precisamente de la visión por ordenador. Además, este año se destacaron muchos aspectos importantes, como los aspectos éticos, sesgos importantes y mucho más. La inteligencia artificial y nuestra comprensión del cerebro humano y su vínculo con la IA están en constante evolución, mostrando aplicaciones prometedoras en el futuro cercano, que definitivamente cubriré.
Aquí está mi top 10 de los trabajos de investigación más interesantes del año en visión por computadora, en caso de que se haya perdido alguno de ellos. En resumen, es básicamente una lista seleccionada de los últimos avances en IA y CV con una explicación clara en video, un enlace a un artículo más detallado y un código (si corresponde). Disfrute de la lectura y avíseme si me perdí algún artículo importante en los comentarios o contactándome directamente en LinkedIn.
La referencia completa de cada artículo se incluye al final de este repositorio.
Mantenedor - louisfb01
No dude en enviarme un mensaje sobre cualquier artículo excelente que me haya faltado para agregar a este repositorio a [email protected]
Etiquétame en Twitter @Whats_AI o LinkedIn @Louis (What's AI) Bouchard si compartes la lista.
Una lista seleccionada de los últimos avances en IA por fecha de lanzamiento con una explicación clara en video, un enlace a un artículo más detallado y código.
2020: Un año lleno de artículos sorprendentes sobre IA: una revisión
¿Alguna vez te has preguntado cómo se vería el océano sin agua? Quita este tinte azul verdoso de las imágenes submarinas y aún conserva los verdaderos colores de un arrecife de coral. Bueno, utilizando algoritmos de visión por computadora y aprendizaje automático, ¡los investigadores de la Universidad de Haifa pudieron lograr exactamente eso!
Investigadores del IST Austria y el MIT han entrenado con éxito un coche autónomo utilizando un nuevo sistema de inteligencia artificial basado en el cerebro de animales diminutos, como los oxiuros. Lo lograron con solo unas pocas neuronas capaces de controlar el automóvil autónomo, en comparación con los millones de neuronas que necesitan las populares redes neuronales profundas como Inceptions, Resnets o VGG. ¡Su red era capaz de controlar completamente un automóvil utilizando sólo 75.000 parámetros, compuestos por 19 neuronas de control, en lugar de millones!
Este nuevo método es capaz de generar una escena tridimensional completa y tiene la capacidad de decidir la iluminación de la escena. Todo ello con costes de cálculo muy limitados y resultados sorprendentes en comparación con enfoques anteriores.
Esta cuarta versión fue presentada recientemente en abril de 2020 por Alexey Bochkovsky et al. en el artículo "YOLOv4: Velocidad óptima y precisión de la detección de objetos". El objetivo principal de este algoritmo era crear un detector de objetos súper rápido con alta calidad en términos de precisión.
¡Este nuevo algoritmo transforma una imagen borrosa en una imagen de alta resolución! ¡Puede tomar una imagen de muy baja resolución de 16x16 y convertirla en un rostro humano de alta definición de 1080p! ¿No me crees? ¡Entonces puedes hacer como yo y probártelo tú mismo en menos de un minuto! Pero primero, veamos cómo lo hicieron.
Una buena IA, como la que se usa en Gmail, puede generar texto coherente y terminar tu frase. ¡Éste utiliza los mismos principios para completar una imagen! ¡Todo hecho en una capacitación no supervisada y sin necesidad de etiquetas!
¡Ahora puedes generar imágenes de rostros de alta calidad a partir de bocetos aproximados o incluso incompletos sin tener ninguna habilidad para dibujar usando esta nueva técnica de traducción de imagen a imagen! Si tus habilidades de dibujo son tan malas como las mías, ¡incluso puedes ajustar cuánto afectarán los ojos, la boca y la nariz a la imagen final! Veamos si realmente funciona y cómo lo hicieron.
¡Esta IA genera reconstrucciones 3D de alta resolución de personas a partir de imágenes 2D! Solo necesita una imagen tuya para generar un avatar 3D que se parece a ti, ¡incluso desde atrás!
El premio al mejor artículo ECCV 2020 es para el equipo de Princeton. Desarrollaron un nuevo modelo entrenable de extremo a extremo para flujo óptico. Su método supera la precisión de las arquitecturas de última generación en múltiples conjuntos de datos y es mucho más eficiente. ¡Incluso pusieron el código a disposición de todos en su Github!
¡Esta IA puede llenar los píxeles que faltan detrás de un objeto en movimiento eliminado y reconstruir todo el video con mucha más precisión y menos borrosidad que los enfoques de última generación actuales!
Imagínese tener fotografías viejas, dobladas e incluso rotas de su abuela cuando tenía 18 años en alta definición sin artefactos. Esto se llama restauración de fotografías antiguas y este artículo acaba de abrir una vía completamente nueva para abordar este problema utilizando un enfoque de aprendizaje profundo.
Los tapetes humanos son una tarea extremadamente interesante en la que el objetivo es encontrar cualquier humano en una imagen y quitarle el fondo. Es realmente difícil de conseguir debido a la complejidad de la tarea, tener que encontrar la persona o personas con el contorno perfecto. En esta publicación, reviso las mejores técnicas utilizadas a lo largo de los años y un enfoque novedoso publicado el 29 de noviembre de 2020. Muchas técnicas utilizan algoritmos básicos de visión por computadora para lograr esta tarea, como el algoritmo GrabCut, que es extremadamente rápido, pero no muy preciso.
DeOldify es una técnica para colorear y restaurar imágenes antiguas en blanco y negro o incluso secuencias de películas. Fue desarrollado y todavía está siendo actualizado por una sola persona, Jason Antic. Ahora es la forma más moderna de colorear imágenes en blanco y negro, y todo es de código abierto, pero volveremos a esto en un momento.
Etiquétame en Twitter @Whats_AI o LinkedIn @Louis (What's AI) Bouchard si compartes la lista.
[1] Akkaynak, Derya y Treibitz, Tali. (2019). Sea-Thru: un método para eliminar agua de imágenes submarinas. 1682-1691. 10.1109/CVPR.2019.00178.
[2] Lechner, M., Hasani, R., Amini, A. et al. Políticas de circuitos neuronales que permitan una autonomía auditable. Nat Mach Intell 2, 642–652 (2020). https://doi.org/10.1038/s42256-020-00237-3
[3] PP Srinivasan, B. Deng, X. Zhang, M. Tancik, B. Mildenhall y JT Barron, "Nerv: campos de visibilidad y reflectancia neuronal para reiluminación y síntesis de visión", en arXiv, 2020.
[4] A. Bochkovskiy, C.-Y. Wang y H.-YM Liao, Yolov4: Velocidad óptima y precisión de la detección de objetos, 2020. arXiv:2004.10934 [cs.CV].
[5] S. Menon, A. Damian, S. Hu, N. Ravi y C. Rudin, Pulse: muestreo ascendente de fotografías autosupervisadas mediante exploración espacial latente de modelos generativos, 2020. arXiv:2003.03808 [cs.CV].
[6] M. Chen, A. Radford, R. Child, J. Wu, H. Jun, D. Luan e I. Sutskever, "Generative pretraining from pixels", en Actas de la 37ª Conferencia Internacional sobre Aprendizaje Automático, HD III y A. Singh, Eds., ser. Actas de investigación sobre aprendizaje automático, vol. 119, virtual: PMLR, 13 a 18 de julio de 2020, págs. [En línea].
[7] S.-Y. Chen, W. Su, L. Gao, S. Xia y H. Fu, "DeepFaceDrawing: generación profunda de imágenes faciales a partir de bocetos", ACM Transactions on Graphics (Actas de ACM SIGGRAPH2020), vol. 39, núm. 4, 72:1–72:16, 2020. Disponible: http://proceedings.mlr.press/v119/chen20s.html.
[8] S. Saito, T. Simon, J. Saragih y H. Joo, Pifuhd: Función implícita alineada con píxeles de varios niveles para la digitalización humana en 3D de alta resolución, 2020. arXiv:2004.00452 [cs.CV].
[9] Z. Teed y J. Deng, Raft: Transformaciones de campo recurrentes de todos los pares para flujo óptico, 2020. arXiv:2003.12039 [cs.CV].
[10] Y. Zeng, J. Fu y H. Chao, Aprendizaje de transformaciones espacio-temporales conjuntas para video en pintura, 2020. arXiv:2007.10247 [cs.CV].
[Bonificación 1] Z. Wan, B. Zhang, D. Chen, P. Zhang, D. Chen, J. Liao y F. Wen, Restauración de fotografías antiguas mediante traducción del espacio latente profundo, 2020. arXiv:2009.07047 [cs. CV].
[Bonificación 2] Z. Ke, K. Li, Y. Zhou, Q. Wu, X. Mao, Q. Yan y RW Lau, "¿Es realmente necesaria una pantalla verde para el mateado de retratos en tiempo real?" ArXiv, vol. abs/2011.11961, 2020.
[Bonificación 3] Jason Antic, creador de DeOldify, https://github.com/jantic/DeOldify