Un estudio preliminar sobre Bayes variacional
Título original: Guía para principiantes de métodos variacionales: aproximación de campo medio
Guía para principiantes de métodos variacionales: aproximación de campo medio
Esta inferencia está optimizada la dualidad nos da capacidades poderosas. Podemos utilizar los mejores y más recientes algoritmos de optimización para resolver problemas estadísticos de aprendizaje automático o, por el contrario, utilizar técnicas estadísticas para minimizar funciones.
Este artículo es un tutorial introductorio sobre métodos variacionales. Deduciré el objetivo de optimización para el método VB más simple, llamado aproximación de campo medio. Este objetivo, también conocido como límite inferior variacional, es exactamente la misma técnica utilizada en los codificadores automáticos variacionales (VAE) (que cubriré en una publicación de seguimiento, pero es bastante impresionante).
1. La premisa y la convención de símbolos del problema
2. La formulación del problema
3. El límite inferior variacional de la aproximación del campo medio
4. KL de avance y KL de retroceso
5. Conexión con el aprendizaje profundo
Este artículo supone que el lector está familiarizado con conceptos como aleatorio variables, distribuciones de probabilidad y expectativas matemáticas. Si has olvidado estos conceptos, puedes revisarlos aquí. Las convenciones de símbolos en los campos del aprendizaje automático y la estadística no están estrictamente estandarizadas, por lo que en este artículo acordamos los siguientes símbolos. Los símbolos determinados serán útiles para comprender el significado del texto:
Muchos académicos. Los artículos utilizan los términos "variable", "distribución", "densidad" e incluso "modelo" se utilizan indistintamente. Esta práctica en sí misma no conduce necesariamente a errores, ya que , y pueden referirse entre sí a través de una correspondencia uno a uno. Sin embargo, mezclar estos términos puede generar confusión. Porque se refieren a diferentes categorías (por ejemplo, muestrear una función no tiene sentido y integrar una distribución tampoco tiene sentido).
Modelamos el sistema como una colección de variables aleatorias, algunas de las cuales ( ) son "observables" y otras ( ) están "ocultas". Nota del traductor: Las dos se denominan más tarde "variables observadas" y "variables ocultas". Podemos dibujar esta relación a través de la siguiente figura:
De a, a través del borde de la distribución condicional, las dos variables conectadas.
Pongamos un ejemplo más vívido: puede representar "el valor de píxel original de la imagen", pero es una variable binaria. Si es una imagen de un gato, .
El teorema de Bayes da una relación general entre cualquier par de variables aleatorias:
Cada uno de los términos está asociado con los siguientes nombres comunes:
es el posterior probabilidad: "Dada una imagen, ¿cuál es la probabilidad de que sea un gato?" Si podemos tomar una muestra de , podemos usarla para crear un clasificador de gatos que nos diga si una imagen determinada es un gato.
es la probabilidad de verosimilitud: "Dado un valor, calcula qué tan 'probable' es que esta imagen esté en esta categoría ({es un gato/no es un gato})" Si podemos tomar muestras de Puedes generar gato imágenes e imágenes que no sean de gatos tan fácilmente como generar números aleatorios. Si desea obtener más información sobre esto, consulte mis otros artículos sobre modelos generativos: [1], [2].
es la probabilidad previa. Se refiere a cualquier información previa que conozcamos; por ejemplo, si pensamos que 1/3 de todas las imágenes son gatos, entonces y .
Esta sección es para lectores interesados. Pase directamente a la siguiente sección para continuar con este tutorial.
El ejemplo anterior del gato proporciona una perspectiva de comprensión de las variables observadas, latentes y a priori, y es un ejemplo tradicional. Sin embargo, tenga en cuenta que definimos la distinción entre variables latentes y variables observadas de forma algo arbitraria y usted es libre de descomponer el modelo gráfico como desee.
Podemos reescribir el teorema de Bayes intercambiando los términos de la ecuación:
La "probabilidad posterior" ahora es .
Desde un marco estadístico bayesiano, las variables latentes pueden interpretarse como creencias previas adjuntas a las variables observadas. Por ejemplo, si consideramos que es una distribución gaussiana multivariada, entonces la variable latente puede representar la media y la varianza de la distribución gaussiana. Además, la distribución de los parámetros es la distribución previa de .
También eres libre de elegir los valores representados por y . Por ejemplo, podría sustituirse por "la media, la raíz cúbica de la varianza y , donde ". Aunque es un poco abrupta y extraña, la estructura sigue funcionando siempre que la modifiques en consecuencia.
Incluso puedes "añadir" variables al sistema. Los propios anteriores pueden depender de otras variables aleatorias a través de , teniendo sus propias distribuciones previas para , y esos anteriores siguen siendo anteriores, y así sucesivamente. Cualquier hiperparámetro puede considerarse a priori. En la estadística bayesiana, el prior es infinitamente recursivo. Nota del traductor: 1. El proverbio inglés "turtles all the way down" significa bucles infinitos y recursiones de problemas. El autor utiliza "priors all the way down" para expresar con humor la recursividad del sistema trascendental. 2. Cuanto más profundo sea el nivel anterior, menor será el impacto en los resultados.
La cuestión clave que nos interesa es la inferencia posterior o función de densidad de la variable oculta. Algunos ejemplos típicos de inferencia posterior:
Generalmente asumimos que ya sabemos cómo calcular la distribución de probabilidad y la distribución previa. Nota del traductor: el texto original es la función "función", que debería ser una corrupción. Situaciones similares seguirán. Sujeto al símbolo.
Sin embargo, para tareas complejas como la anterior, a menudo no sabemos cómo tomar muestras o calcular a partir de . O podemos conocer la forma, pero el cálculo correspondiente es tan complejo que no podemos evaluarlo en un tiempo razonable. Nota del traductor: "Evaluar" significa que, dada la función de probabilidad, encuentra la función en un determinado valor de punto. Podemos intentar resolverlo utilizando métodos basados en muestreo como MCMC, pero dichos métodos son difíciles de converger.
La idea detrás de la inferencia variacional es la siguiente: hacer inferencias sobre distribuciones paramétricas simples (como las distribuciones gaussianas). Para esta función, ya sabemos cómo hacer inferencia posterior, por lo que la tarea consiste en ajustar los parámetros para que se acerquen lo más posible a . Nota del traductor: "Inferencia" aquí se refiere a derivar la distribución de probabilidad de la variable latente a partir de la distribución de probabilidad de la variable observada
Esto se muestra visualmente en la siguiente figura: la curva azul es la verdadera distribución posterior, La distribución verde es una aproximación variacional (distribución gaussiana) de la densidad azul ajustada obtenida mediante optimización.
¿Qué significa que dos distribuciones estén "cercas"? El Bayes variacional de campo medio (el tipo más común) utiliza la divergencia KL inversa como medida de distancia entre dos distribuciones.
La divergencia KL inversa mide la cantidad de información necesaria para "distorsionarla" en unidades nat o bits de logaritmo de base 2). Queremos minimizar esta cantidad. Nota del traductor: 1. "Distorsión" significa juntar y, es decir, provocar la deformación de la imagen funcional mediante algún tipo de mapeo, de modo que las dos imágenes sean consistentes 2. Muchos artículos que estudian modelos de producción compararán diferentes métodos; El valor de divergencia a continuación.
Según la definición de distribución condicional, . Sustituyamos esta expresión en la expresión KL original y luego usemos la ley distributiva:
Para minimizar con respecto al parámetro variacional , solo necesitamos minimizar , ya que es una constante para . Reescribamos esta cantidad como una expectativa para la distribución.
Minimizar la fórmula anterior equivale a maximizar la fórmula negativa:
En la literatura, se denomina límite inferior variacional. Si podemos estimar , , , podemos calcularlo. Podemos continuar ajustando el orden de los términos en la fórmula para hacerla más intuitiva:
Si el muestreo es el proceso de "codificar" las variables observadas en variables latentes, entonces el muestreo es el proceso de reconstruir la variables observadas".
Lo que se deriva de esto es la probabilidad de "decodificación" esperada (es decir, qué tan bien la distribución variacional puede decodificar la muestra nuevamente en la muestra), menos la diferencia entre la distribución de la aproximación variacional y la Nota anterior del traductor de divergencia de KL: el texto original es "más", debería ser "resta". Si asumimos que es condicionalmente gaussiano, entonces la distribución previa generalmente se especifica como una distribución gaussiana diagonal con media 0 y desviación estándar 1.
¿Por qué se llama límite inferior variacional? Sustituyendo eso, tenemos:
significa, en términos sencillos, la probabilidad logarítmica de un punto de datos bajo la distribución verdadera, igual a , más la diferencia.
Ya que , debe ser mayor que (o igual a). Por tanto, es el límite inferior de . También conocido como límite inferior de evidencia (ELBO), ajustando la fórmula:
Tenga en cuenta que contiene la divergencia de KL entre el posterior aproximado y el anterior, por lo que siempre hay dos términos de KL.
Las funciones de divergencia de KL no son funciones de distancia simétricas, es decir, (excepto entonces) la primera se llama "KL directa" y la segunda es "KL inversa". ¿Por qué deberíamos utilizar KL hacia atrás? ¿Cuál es el objetivo? La derivación requiere que seamos aproximados, primero debemos asegurarnos de que la forma sea precisa y no podamos obtener la forma óptima al mismo tiempo.
Me gusta la explicación de Kevin Murphy en el libro de texto de PML. explíquelo aquí:
Consideremos primero el KL directo Como se dedujo anteriormente, podemos escribir KL como la expectativa de la función de "penalización" ponderada por la función de peso
As. Mientras, la función de penalización traerá una pérdida al KL total en todas partes. Esto significa que el KL directo será grande cuando no se "enmascare"
Nos aseguramos de que el KL directo se minimice cuando esté optimizado. La distribución variacional se llama "evitar cero" (evitar cero cuando la densidad es cero). > Si, debemos asegurarnos de que el denominador esté en lugar de la función ponderada; de lo contrario, KL explotará.
En los problemas de aprendizaje automático, se utilizan campos medios al realizar la aproximación, es importante tener en cuenta las consecuencias del KL inverso. Si ajustamos una distribución unimodal a una distribución multimodal, terminaremos con más. Ejemplos de falsos negativos (es decir, en realidad existe una probabilidad, pero creemos que no hay posibilidad).
El método variacional es muy importante para el aprendizaje profundo. Escribiré un artículo para explicarlo. detalle más adelante:
Combinando aprendizaje profundo y métodos bayesianos variacionales, podemos inferir distribuciones posteriores extremadamente complejas. Resulta que las técnicas modernas como los codificadores automáticos variacionales pueden optimizar la misma forma de variación de campo medio anterior. /p>
¡Gracias por leer y estar atento!
Dado el título, vale la pena dar algo de motivación detrás del nombre "Aproximación de campo medio"
Desde la perspectiva estadística. En física, el "campo medio" se refiere a ignorar los efectos de segundo orden y convertir problemas de optimización difíciles en otros más simples.
Por ejemplo, en el contexto de modelos gráficos, podemos transformar el problema de estimar la función de partición de un campo aleatorio de Markov en el problema de maximizar la energía libre de Gibbs (función de partición logarítmica menos entropía relativa). Esto simplifica significativamente la forma de optimización global del espacio de medición probabilístico completo (ver M. Mezard y A. Montanari, Sección 4.4.2).
Descomposición global:
Descomposición de la aproximación del campo medio:
Desde un punto de vista algorítmico, "campo medio" se refiere a un algoritmo ingenuo de campo medio para probabilidades de borde del aeropuerto. Recuerde que el punto fijo del algoritmo ingenuo del campo medio, la solución final, es el punto óptimo de la aproximación del campo medio al problema de variación de Gibbs. Este método es "malo" porque es la versión media/expectativa/LLN del muestreador de Gibbs y, por lo tanto, ignora los efectos (aleatorios) de segundo orden (ver M. Wainwright y M. Jordan, (2.14) y (2.15)) .
Nota del traductor:
1. La explicación anterior es principalmente para la función de partición.
2. El espacio oculto de VAE es una distribución gaussiana estándar y la matriz de covarianza es una matriz unitaria diagonal, independientemente de la influencia de elementos no diagonales. Esto encarna la idea de "campo medio".
3. Los resultados experimentales de VAE muestran que la imagen resultante es borrosa o "normal" y no lo suficientemente nítida, lo que puede ser el resultado de la aproximación del campo medio