Modelo de difusión
En el aprendizaje automático, los modelos de difusión, también conocidos como modelos probabilísticos de difusión, son una clase de modelos de variables latentes. Son cadenas de Markov entrenadas mediante inferencia variacional. 1 El objetivo de los modelos de difusión es aprender la estructura latente de un conjunto de datos modelando la forma en que los puntos de datos se difunden a través del espacio latente. En visión artificial, esto significa que se entrena una red neuronal para eliminar el ruido de las imágenes borrosas con ruido gaussiano aprendiendo a invertir el proceso de difusión. 23
Los modelos de difusión se introdujeron en 2015 con una motivación de la termodinámica del no equilibrio.4
Los modelos de difusión se pueden aplicar a una variedad de tareas, incluida la eliminación de ruido de imágenes, la pintura, la superresolución y la generación de imágenes. Por ejemplo, un modelo de generación de imágenes comenzaría con una imagen de ruido aleatorio y, después de haber sido entrenado invirtiendo el proceso de difusión en imágenes naturales, el modelo sería capaz de generar nuevas imágenes naturales. Anunciado el 13 de abril de 2022, el modelo de texto a imagen DALL-E 2 de OpenAI es un ejemplo reciente. Utiliza modelos de difusión tanto para el modelo a priori (que produce una imagen incrustada dada una leyenda) como para el descodificador que genera la imagen final.
Los modelos de difusión son un tipo de modelo generativo de datos que está consiguiendo resultados asombrosos en aplicaciones de síntesis de imágenes.
Lo podemos ver en GLIDE de Open AI para generación, edición o modificación de imágenes a partir de texto.
También son la base de Palette de Google para la reconstrucción de imágenes mediante coloreado (“colorization” en inglés), relleno de pixels (“inpainting” y “uncropping” en inglés) y en restauración (“jpeg restoration” en inglés) como podemos ver en el vídeo de su página.
Contexto
Este tipo de modelos están inspirados en el término de difusión en termodinámica en “no-equilibrio” y su clave está en generar la distribución de datos de la imagen objetivo eliminando el ruido de una imagen inicial.
Aunque por definición suene parecido a lo que hacen las redes generativas antagónicas (GAN), el proceso es muy diferente.
Por un lado, la generación del ruido en los modelos de difusión se hace en varios pasos.
Por el otro lado, se apoya en métodos bayesianos, con lo que son, en cierto modo, similares a los autocodificadores variacionales o VAE, otro método de generación de información.
Veamos su funcionamiento con un poco más de detalle.
- Por un lado, se realiza paso a paso a través de otra cadena de Markov, de nuevo, mediante pasos de estado temporales independientes.
- Por otro lado, como el ruido final generada en el proceso 1 (XT) es una normal o gaussiana, podemos generar la imagen original (x0) a partir del proceso para la distribución inversa q(xt-1|xt) (¿recuerdas la “q” del proceso “hacia delante”?).
- Finalmente, como no conocemos toda la distribución inversa, la cadena de Markov en muchos pasos nos permite aproximar, de nuevo, a una gaussiana que llamamos “pΘ“.