(Borrador, WIP, Fecha prevista de publicación: finales de 2025 )
Este libro de texto está elaborado por expertos para estudiantes de posgrado en física e informática y ofrece una exploración exhaustiva de un semestre de duración de los modelos probabilísticos de difusión de eliminación de ruido (DDPM) dentro del campo expansivo de la IA generativa. A diferencia de los textos convencionales que siguen un formato rígido de definición, prueba de teoremas, este libro adopta un tono más relajado y conversacional , incorporando comentarios extensos, motivación y explicaciones para mejorar la comprensión y el compromiso.
Hasta hace poco, los modelos de difusión eran un nicho conocido sólo por un grupo selecto de científicos e ingenieros . La IA generativa, un campo que depende en gran medida de estos modelos, requiere una comprensión compleja de las matemáticas, la física, los procesos estocásticos, el aprendizaje profundo y la informática.
Este libro profundiza en los modelos de difusión dentro de la IA generativa, centrándose particularmente en los modelos probabilísticos de difusión de eliminación de ruido (DDPM) . Si bien otros modelos generativos como las redes generativas adversarias (GAN), los codificadores automáticos variacionales (VAE) y los modelos basados en flujo han avanzado en la generación de muestras de alta calidad, cada uno de ellos tiene inconvenientes importantes. Las GAN pueden experimentar una formación inestable y una diversidad de resultados limitada; Los VAE dependen de funciones complejas de pérdida sustituta, lo que complica la optimización; y los modelos de flujo necesitan arquitecturas reversibles y especializadas.
Los modelos de difusión, que se inspiran en la termodinámica de no equilibrio, presentan una alternativa sólida al abordar eficazmente estos desafíos. Este volumen se destaca por concentrarse únicamente en los modelos de difusión, ofreciendo una perspectiva única que rara vez se encuentra en otros textos. Este enfoque centrado no sólo simplifica ideas complejas para una audiencia más amplia, sino que también amplía los límites de lo que la IA puede lograr en las industrias y la investigación modernas. Como tal, este libro es un recurso esencial para cualquiera que busque comprender los impactos actuales y futuros de los procesos creativos impulsados por la tecnología en la IA generativa.
El libro comienza con conceptos fundamentales, como la introducción del movimiento browniano (la forma más simple de difusión) y avanza gradualmente hacia ecuaciones de difusión más complejas. Este enfoque estructurado garantiza que los lectores desarrollen una comprensión profunda de los procesos de difusión hacia adelante y hacia atrás, proporcionando una base sólida para estudios y aplicaciones avanzados.
El libro ofrece una exploración detallada de conceptos clave que incluyen el movimiento browniano, el lema de Itô, las ecuaciones diferenciales estocásticas (SDE) y el importante papel de los procesos estocásticos en la inteligencia artificial. Proporciona una introducción exhaustiva a los procesos de difusión, un examen meticuloso de los DDPM y un capítulo dedicado a las arquitecturas de aprendizaje profundo fundamentales para los DDPM. La narrativa se enriquece con una gran cantidad de problemas resueltos y numerosos miniproyectos de programación , concentrándose principalmente en resultados que tienen una relevancia sustancial para las implementaciones prácticas. Como extenso libro de texto y referencia a nivel de posgrado, adopta la filosofía de que la forma más efectiva de aprender sobre los DDPM es a través de su aplicación, ilustrada a través de ejemplos extensos que demuestran la teoría en escenarios del mundo real.
Cada capítulo de este libro integra el discurso teórico con aplicaciones prácticas, que culminan en mini proyectos de programación utilizando Python . Estos proyectos permiten a los lectores simular conceptos teóricos básicos, como una caminata aleatoria o un movimiento browniano, y avanzar hacia implementaciones más sofisticadas, como el desarrollo de un DDPM. Este enfoque práctico no solo solidifica el aprendizaje a través de la participación activa, sino que también brinda a los estudiantes y profesionales las habilidades para implementar de manera efectiva estos modelos avanzados en diversos contextos del mundo real.
Además, el texto cubre metódicamente temas como las ecuaciones diferenciales estocásticas (EDE), el movimiento browniano, las martingalas y el lema de Itô. Estos temas están interconectados dentro del contexto de los modelos de difusión, lo que anima a los lectores a revisar discusiones anteriores para comprender plenamente las complejas interrelaciones entre estos conceptos. Para garantizar la claridad y la accesibilidad, el texto omite intencionalmente algunos temas más esotéricos y, en cambio, se centra en proporcionar conocimientos fundamentales y conocimientos profundos esenciales para una comprensión profunda de los DDPM.
Rico en una amplia gama de ejemplos completamente resueltos y ejercicios de diversa complejidad, este manuscrito los integra en la narrativa para mejorar y evaluar ampliamente la comprensión del lector. Estos ejercicios son fundamentales para la estructura del libro , a los que a menudo se hace referencia en discusiones posteriores para fomentar un entorno de aprendizaje dinámico e interactivo.
Inspirado en la reconocida serie Outline de Schaum , el texto combina una exposición teórica rigurosa con aplicaciones prácticas. Esta metodología está diseñada para reforzar el conocimiento teórico mediante la resolución práctica de problemas , mejorando así la comprensión.
Si bien el enfoque principal es teórico, el texto incorpora ocasionalmente fragmentos de código para cerrar la brecha entre la teoría y la aplicación práctica, lo que lo hace ideal para estudiantes graduados y profesionales comprometidos con el dominio de los modelos de difusión.
Cada sección de cada capítulo está organizada para incluir:
Para realzar el valor pedagógico de cada capítulo y solidificar los conceptos teóricos presentados, el texto concluye con una serie de proyectos prácticos de programación. Estos proyectos están diseñados para cerrar la brecha entre la teoría y la práctica, permitiendo a los lectores aplicar sus conocimientos recién adquiridos en entornos simulados. Este enfoque práctico no sólo refuerza la comprensión sino que también mejora las habilidades prácticas esenciales para avanzar en el campo de la IA generativa.
Los proyectos incluyen:
Estos proyectos fomentan una inmersión profunda en los aspectos prácticos de los procesos estocásticos y los modelos de difusión, preparando a los lectores para abordar problemas del mundo real e innovar dentro del dominio de la IA generativa.