Con la creación de un campo completamente nuevo llamado "IA generativa", le guste o no el término, la investigación no ha disminuido su ritmo frenético, especialmente la industria, que ha experimentado el mayor auge en la implementación de tecnologías de IA. La inteligencia artificial y nuestra comprensión del cerebro humano y su vínculo con la IA están en constante evolución y muestran aplicaciones prometedoras que mejorarán nuestra calidad de vida en un futuro próximo. Aún así, debemos tener cuidado con la tecnología que elegimos aplicar.
"La ciencia no puede decirnos lo que debemos hacer, sólo lo que podemos hacer".
- Jean-Paul Sartre, El ser y la nada
Aquí hay una lista seleccionada de los últimos avances en IA y ciencia de datos por fecha de lanzamiento con una explicación clara en video, un enlace a un artículo más detallado y un código (si corresponde). ¡Disfruta la lectura!
La referencia completa de cada artículo se incluye al final de este repositorio. Destaca este repositorio para mantenerte actualizado y estar atento al próximo año. ️
Mantenedor: louisfb01, también activo en YouTube y como Podcaster si quieres ver/escuchar más sobre la IA.
Suscríbase a mi boletín: las últimas actualizaciones en IA se explican cada semana.
No dude en enviarme un mensaje sobre cualquier artículo interesante que me haya perdido para agregarlo a este repositorio.
Etiquétame en Twitter @Whats_AI o LinkedIn @Louis (What's AI) Bouchard si compartes la lista. ¡Y ven a chatear con nosotros en nuestra comunidad Learn AI Together Discord!
? Si desea apoyar mi trabajo , puede consultar Patrocinar este repositorio o apoyarme en Patreon.
El año pasado vimos el surgimiento de la IA generativa tanto para imágenes como para texto, más recientemente con ChatGPT. Ahora, en la primera semana de 2023, los investigadores ya crearon un nuevo sistema de datos de audio llamado VALL-E.
VALL-E es capaz de imitar la voz de alguien con solo una grabación de 3 segundos con mayor similitud y naturalidad del habla que nunca. ChatGPT es capaz de imitar a un escritor humano; VALL-E hace lo mismo con la voz.
Sabemos que la IA puede generar imágenes; ¡Ahora vamos a editarlos!
Este nuevo modelo llamado InstructPix2Pix hace precisamente eso; edita una imagen siguiendo una instrucción basada en texto dada por el usuario. Basta con mirar esos sorprendentes resultados… y eso no es de OpenAI o de Google con un presupuesto infinito.
Es una publicación reciente de Tim Brooks y colaboradores de la Universidad de California, incluido el prof. Alexei A. Efros, una figura muy conocida en la industria de la visión por computadora. Como puede ver, los resultados son simplemente increíbles.
Recientemente cubrimos un modelo capaz de imitar la voz de alguien llamado VALL-E. Demos un paso más en la dirección creativa con esta nueva IA llamada MusicLM. MusicLM te permite generar música a partir de una descripción de texto.
No esperemos más y profundicemos en los resultados... ¡lo que escucharás te dejará boquiabierto!
Runway ha creado un sistema llamado GEN-1 que puede tomar un video y aplicarle un estilo completamente diferente en segundos. El modelo es un trabajo en progreso y tiene fallas, pero aún hace una transferencia de estilo bastante buena de una imagen o mensaje de texto a un video, algo que hubiera sido imposible hace unos años o incluso meses. Aún más genial es cómo funciona...
PaLM-E, la publicación más reciente de Google, es lo que ellos llaman un modelo de lenguaje multimodal incorporado. ¿Qué quiere decir esto? Significa que es un modelo que puede comprender varios tipos de datos, como texto e imágenes de los modelos ViT y PaLM que mencionamos, y es capaz de convertir estos conocimientos en acciones desde una mano robótica.
Segmentación: es como el equivalente en el mundo de la fotografía a jugar a los detectives. Este superpoder te permite identificar cualquier cosa en una imagen, desde objetos hasta personas, con una precisión de píxeles perfecta. Es un punto de inflexión para todo tipo de aplicaciones, como los vehículos autónomos que necesitan saber qué sucede a su alrededor, ya sea un automóvil o un peatón.
Definitivamente, a estas alturas también sabes acerca de las indicaciones. ¿Pero has oído hablar de la segmentación rápida? Es el chico más nuevo de la cuadra y es realmente genial. Con este nuevo truco bajo la manga, puedes hacer que tu modelo de IA segmente lo que quieras, ¡y me refiero a cualquier cosa! Gracias al nuevo e increíble SAM (Segment Anything Model) de Meta, no hay límite para lo que puedes hacer.
Si tiene curiosidad acerca de cómo la segmentación rápida y el modelo SAM hacen su magia, no querrá perderse mi video. En él, aprenderá todo sobre cómo esta nueva y asombrosa tecnología está cambiando el juego en lo que respecta a la segmentación de imágenes. Así que siéntate, relájate y déjame llevarte en un viaje al mundo de la segmentación rápida con SAM. Créeme, ¡no te arrepentirás!
¡Imagínese crear impresionantes imágenes de Instagram sin salir de casa ni tomar fotos! El nuevo modelo de IA de NVIDIA, Perfusion, avanza en la generación de texto a imagen con control y fidelidad mejorados para imágenes basadas en conceptos.
La perfusión es una mejora significativa con respecto a las técnicas de inteligencia artificial existentes, ya que supera las limitaciones en la generación de imágenes que permanecen fieles al contenido original. Este modelo puede crear con precisión estos "conceptos" en una variedad de escenarios nuevos.
La perfusión se basa en la difusión estable con mecanismos adicionales para bloquear y generar múltiples "conceptos" en nuevas imágenes simultáneamente. Esto da como resultado un rendimiento cuantitativo y cualitativo inmejorable, lo que abre posibilidades interesantes en diversas industrias.
? Si bien no es perfecto, Perfusion es un importante paso adelante para los modelos de texto a imagen. Los desafíos incluyen mantener la identidad de un objeto y cierta generalización excesiva, además de requerir un poco de trabajo de ingeniería rápido.
Perfusion de NVIDIA prepara el escenario para un futuro apasionante de imágenes generadas por IA adaptadas a nuestros deseos.
Drag Your Gan prioriza el arrastre preciso de objetos sobre la generación de imágenes o la manipulación de texto. La IA adapta de manera realista toda la imagen, modificando la posición, la pose, la forma, las expresiones y otros elementos del marco del objeto.
?? Edite expresiones de perros, haga que se sienten, ajuste posturas humanas o incluso modifique paisajes sin problemas. Drag Your Gan ofrece una forma innovadora e interactiva de experimentar con la edición de imágenes.
¿Cómo funciona? Drag Your Gan aprovecha StyleGAN2, una arquitectura GAN de última generación de NVIDIA. Al operar en el espacio de funciones (código latente), la IA aprende a editar imágenes correctamente mediante una serie de pasos y cálculos de pérdidas.
Aunque los resultados son fantásticos, como verás a continuación, es esencial tener en cuenta que Drag Your Gan tiene algunas limitaciones, incluida la de poder editar solo las imágenes generadas por ahora. Las imágenes son parte de la distribución. Otras limitaciones son que la selección de puntos se basa en los colores y el contraste de los píxeles, por lo que realmente no se puede arrastrar nada. Si tomas una parte de un auto rojo y la mueves permaneciendo en él, es posible que no entienda que lo mueves en absoluto.
¿No puedes esperar para probarlo? Los autores mencionan que el código debería estar disponible en junio. Sintoniza el vídeo (o artículo) para aprender más sobre este nuevo estilo de manipulación de imágenes con DragYourGan.
¡Consulte el podcast What's AI para obtener más contenido sobre IA en forma de entrevistas con expertos en el campo! Un experto en IA invitado y yo cubriremos temas, subcampos y roles específicos relacionados con la IA para enseñar y compartir conocimientos de las personas que trabajaron duro para recopilarlos.
Neuralangelo es el último avance de NVIDIA en IA de imagen a 3D. Este nuevo enfoque se basa en Instant NeRF, mejorando la calidad de la superficie y proporcionando escenas 3D altamente realistas a partir de imágenes simples en solo segundos.
Neuralangelo pretende superar las limitaciones de su predecesor, Instant NeRF, como la falta de estructuras detalladas y una apariencia algo caricaturesca de los modelos 3D generados por IA.
El secreto detrás de las mejoras de Neuralangelo radica en dos diferencias clave: usar gradientes numéricos para calcular derivadas de orden superior y adoptar una optimización de gruesa a fina en las cuadrículas hash que controlan los niveles de detalle, en la que profundizamos en el video.
Este proceso de optimización da como resultado una entrada más fluida para la reconstrucción del modelo 3D, permite combinar más información y crea un equilibrio perfecto entre consistencia y detalles finos para un resultado realista.
La calidad de los modelos 3D de Neuralangelo es realmente asombrosa, pero la IA enfrenta desafíos con escenas altamente reflectantes. No obstante, ¡sus posibles aplicaciones en el mundo real son vastas y emocionantes!
En el episodio de esta semana decidí explorar una nueva investigación llamada TryOnDiffusion, presentada en la conferencia CVPR 2023. Este enfoque innovador representa un importante avance en experiencias de prueba virtuales realistas. Al entrenar modelos de IA para comprender las imágenes de entrada, diferenciar la ropa de la persona y combinar información de manera inteligente, TryOnDiffusion produce resultados impresionantes que nos acercan al objetivo final de una prueba virtual perfecta.
Si le intriga la intersección de la IA y la moda, únase a nosotros mientras desentrañamos el funcionamiento interno de TryOnDiffusion y su impacto potencial en el futuro de las compras en línea. Si es un entusiasta de la IA, un amante de la moda o simplemente siente curiosidad por los últimos avances tecnológicos, el vídeo ofrece información valiosa sobre el mundo de vanguardia de la prueba virtual de ropa.
Nos sumergiremos en el mundo de los modelos de difusión, UNets y atención, donde todos esos mecanismos increíblemente poderosos combinan fuerzas para ayudar al campo de la moda y el comercio minorista en línea. Por supuesto, este trabajo tiene limitaciones, pero (como verá) los resultados son simplemente alucinantes y muy prometedores.
Hablemos de los modelos de IA que toman tu rostro y pueden transformarlo en una caricatura divertida, editar atributos faciales como cambiar el color de tu cabello o simplemente mejorar tu imagen para hacerla más HD. Si ha estado siguiendo mis artículos, sabrá que la mayoría de estas aplicaciones se basan en un solo modelo y sus múltiples versiones llamadas StyleGAN, que ya cubrí en numerosas ocasiones. StyleGAN es una arquitectura basada en GAN desarrollada por NVIDIA que puede tomar una entrada y transformarla en otra siguiendo un estilo específico en el que fue entrenado. También es de código abierto, lo que significa que todos pueden usarlo y desarrollarlo, y por eso todos los trabajos de investigación lo usan.
El problema con StyleGAN es que se limita a caras recortadas y alineadas con una resolución de imagen fija a partir de los datos con los que se entrenó. Lo que significa que para imágenes del mundo real, se necesitan otros enfoques para encontrar la cara, recortarla y reorientarla, y también debe tener la misma resolución de imagen. Este es un gran problema ya que normalmente deseas tener imágenes de alta calidad, pero entrenar con ellas sería increíblemente largo.
Entonces, lo que normalmente hacemos es usar la arquitectura StyleGAN para realizar la transferencia de estilo de nuestra imagen y luego usamos otra red para mejorar la imagen a una resolución más alta. Si bien este enfoque funciona bien, definitivamente no es ideal. Necesita dos modelos en lugar de uno, lo que agrega más sesgos y errores potenciales, además de entrenar ambos y limitar las capacidades de generalización. Afortunadamente para nosotros, algunos investigadores increíbles están trabajando en este problema de imagen de entrada limitada y recientemente publicaron un nuevo enfoque en ICCV 2023 llamado StyleGANEX a través de algunos pequeños cambios muy inteligentes...
Etiquétame en Twitter @Whats_AI o LinkedIn @Louis (What's AI) Bouchard si compartes la lista.
Hemos sido testigos de las notables capacidades de los grandes modelos de lenguaje (LLM), pero ha habido una brecha: una pieza faltante en su comprensión del mundo que nos rodea. Han sobresalido con texto, código e imágenes, pero han luchado por interactuar verdaderamente con nuestra realidad. Es decir, hasta ahora. He aquí un avance innovador en el panorama de la IA: 3D-LLM.
3D-LLM es un modelo novedoso que cierra la brecha entre el lenguaje y el ámbito 3D que habitamos. Si bien no cubre la totalidad de nuestro mundo, es un paso monumental hacia la comprensión de las dimensiones y el texto cruciales que dan forma a nuestras vidas. Como descubrirás en el vídeo, 3D-LLM no sólo percibe el mundo sino que también interactúa con él. Puedes plantear preguntas sobre el entorno, buscar objetos o navegar por espacios y ser testigo de su razonamiento de sentido común, que recuerda las hazañas impresionantes que hemos experimentado con ChatGPT.
Aún más interesante, los autores aprovecharon la destreza de ChatGPT para recopilar datos a través de tres métodos distintos que aprenderá, creando un repositorio completo de tareas y ejemplos para cada escena utilizada para entrenar el modelo...
Este trabajo presenta un marco novedoso para orquestar grandes modelos de lenguaje para que funcionen de manera coherente y al mismo tiempo mitiguen los riesgos de alucinaciones. Este enfoque combina el poder de los agentes de IA con la claridad de los procedimientos operativos estandarizados, asegurando que los agentes colaboren de manera efectiva y se mantengan alineados con los objetivos de los usuarios.
¡Suscríbete a mi boletín semanal y mantente actualizado con nuevas publicaciones en IA para 2023!
Liu y cols. utilizó GPT-4 para crear un modelo de visión del lenguaje de propósito general llamado LLaVA, el primer modelo de propósito general que comprende y sigue instrucciones visuales y basadas en el lenguaje. Sí, no usaron GPT-4 como modelo base, ¡sino para entrenar su modelo! Como veremos en el vídeo, se utilizó GPT-4 para generar un conjunto de datos grande y de alta calidad para entrenar un nuevo modelo que comprenda imágenes. Ah, y obviamente no sólo entiende imágenes sino también texto (existe la multimodalidad), lo que significa que puede responder una amplia variedad de preguntas sobre ellas. Conoce más en el artículo completo o en el vídeo...
Hemos visto muchos enfoques nuevos para generar texto y luego generar imágenes cada vez mejor. Luego, hemos visto otros trabajos iniciales sorprendentes para generar vídeos e incluso modelos 3D a partir de texto. Imagínese la complejidad de una tarea de este tipo cuando todo lo que tiene es una oración y necesita generar algo que podría parecerse a un objeto en el mundo real, con todos sus detalles. Bueno, aquí hay uno nuevo que no es simplemente un paso inicial; Es un gran paso adelante en la generación de modelos 3D a partir de solo texto: ¡MVDream!
Distil-Whisper es un modelo de transcripción de audio 6 veces más rápido que el modelo Whisper original, un 49% más pequeño y mantiene el 99% de la precisión. Y lo mejor de esto es que es completamente de código abierto y puedes usarlo ahora mismo.
En este vídeo, nos sumergimos en la difusión de vídeo estable (SVD) y exploramos cómo esta innovadora tecnología de Stability AI está revolucionando la creación de vídeos impulsada por IA. Comprenda los principios básicos de los modelos de difusión y sus aplicaciones en la síntesis de texto a video y de múltiples vistas, ideal para entusiastas de la inteligencia artificial y los medios digitales deseosos de captar el futuro de la generación de videos.
Si desea leer más artículos y tener una visión más amplia, aquí tiene otro gran repositorio que cubre 2022: 2022: Un año lleno de increíbles artículos sobre IA: una revisión y no dude en suscribirse a mi boletín semanal y mantenerse actualizado. -¡fecha con nuevas publicaciones en IA para 2023!
Etiquétame en Twitter @Whats_AI o LinkedIn @Louis (What's AI) Bouchard si compartes la lista.
[1] Wang, C., Chen, S., Wu, Y., Zhang, Z., Zhou, L., Liu, S., Chen, Z., Liu, Y., Wang, H., Li, J. y He, L., 2023. Los modelos de lenguaje de códec neuronal son sintetizadores de texto a voz de disparo cero, https://arxiv.org/abs/2301.02111
[2] Brooks et al., 2022: InstructPix2Pix, https://arxiv.org/abs/2211.09800
[3] Agostinelli et al., 2023: MusicLM, https://arxiv.org/abs/2301.11325
[4] Esser, P., Chiu, J., Atighehchian, P., Granskog, J. y Germanidis, A., 2023. Síntesis de vídeo guiada por estructura y contenido con modelos de difusión, https://arxiv.org/abs /2302.03011
[5] Driess, D., Xia, F., Sajjadi, MS, Lynch, C., Chowdhery, A., Ichter, B., Wahid, A., Tompson, J., Vuong, Q., Yu, T y Huang, W., 2023. Palm-e: un modelo de lenguaje multimodal incorporado, https://arxiv.org/abs/2303.03378.
[6] Kirillov, A., Mintun, E., Ravi, N., Mao, H., Rolland, C., Gustafson, L., Xiao, T., Whitehead, S., Berg, AC, Lo, WY y Dollár, P., 2023. Segmentar cualquier cosa, https://arxiv.org/abs/2304.02643
[7] Tewel, Y., Gal, R., Chechik, G. y Atzmon, Y., 2023. Edición de rango uno con llave para la personalización de texto a imagen, https://arxiv.org/abs/2305.01644
[8] Pan, X., Tewari, A., Leimkühler, T., Liu, L., Meka, A. y Theobalt, C., 2023. Arrastre su GAN: manipulación interactiva basada en puntos en el colector de imágenes generativas, https://arxiv.org/abs/2305.10973
[9] Li, Z., Müller, T., Evans, A., Taylor, RH, Unberath, M., Liu, MY y Lin, CH, 2023. Neuralangelo: reconstrucción de la superficie neuronal de alta fidelidad. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones (págs. 8456-8465), https://arxiv.org/abs/2306.03092
[10] Zhu, L., Yang, D., Zhu, T., Reda, F., Chan, W., Saharia, C., Norouzi, M. y Kemelmacher-Shlizerman, I., 2023. TryOnDiffusion: A Historia de dos UNets. En Actas de la Conferencia IEEE/CVF sobre visión por computadora y reconocimiento de patrones (págs. 4606-4615), https://arxiv.org/abs/2306.08276
[11] Yang, S., Jiang, L., Liu, Z. y Loy, CC, 2023. StyleGANEX: manipulación basada en StyleGAN más allá de caras alineadas recortadas. preimpresión de arXiv arXiv:2303.06146.
[12] Hong, Y., Zhen, H., Chen, P., Zheng, S., Du, Y., Chen, Z. y Gan, C., 2023. 3d-llm: Inyectando el mundo 3D en grande modelos lingüísticos. preimpresión de arXiv arXiv:2307.12981.
[13] Hong, S., Zheng, X., Chen, J., Cheng, Y., Zhang, C., Wang, Z., Yau, SKS, Lin, Z., Zhou, L., Ran, C. y Xiao, L., 2023. Metagpt: Metaprogramación para un marco colaborativo de múltiples agentes. Preimpresión de arXiv arXiv:2308.00352.
[14] Liu, H., Li, C., Wu, Q. y Lee, YJ, 2023. Ajuste de instrucciones visuales. Preimpresión de arXiv arXiv:2304.08485.
[15] Shi, Y., Wang, P., Ye, J., Long, M., Li, K. y Yang, X., 2023. Mvdream: Difusión de vistas múltiples para generación 3D. Preimpresión de arXiv arXiv:2308.16512.
[16] Gandhi, S., von Platen, P. y Rush, AM, 2023. Distil-Whisper: destilación robusta del conocimiento mediante pseudoetiquetado a gran escala. Preimpresión de arXiv arXiv:2311.00430.
[17] Blattmann et al., 2023: Difusión de vídeo estable. https://static1.squarespace.com/static/6213c340453c3f502425776e/t/655ce779b9d47d342a93c890/1700587395994/stable_video_diffusion.pdf