[Interpretación del modelo] Cinco estructuras básicas del calendario Gan
Interpretación de las cinco estructuras básicas de las raíces del calendario
Generar redes antagónicas es el mayor progreso en el campo del aprendizaje no supervisado en los últimos años. Tanto el entusiasmo por la investigación como la cantidad de artículos se acercan o incluso superan la arquitectura tradicional discriminativa de CNN.
Esta vez presentaré brevemente la estructura del modelo principal de las redes generativas adversarias, desde un generador y un discriminador hasta múltiples generadores y múltiples discriminadores.
Autor|Hay tres palabras
Editor|Hay tres palabras
No vamos a hablar de GAN desde el principio en este número, así que si Si no tiene una base relevante, puede leer Consulte nuestra introducción a GAN en el número anterior.
Hay tres teorías en "Technical Review": ¿GAN (I)?
Esta es la estructura de una GAN básica utilizada para generar imágenes.
El generador es un generador que toma ruido como entrada y genera la imagen generada. Por lo general, el ruido es un vector 1D, al que se le da forma de imagen 2D y luego se utilizan varias capas de deconvolución para aprender a realizar un muestreo superior.
Por ejemplo, en el modelo DC-Gan completamente rodante [1], la entrada es un vector de 1*100, y luego se le da forma en un tensor de 4*4*1024 a través de una capa de aprendizaje completamente conectada. , Y luego a través de Se generan cuatro redes deconvolucionales de muestreo ascendente.
Discrimator es un clasificador CNN ordinario, que ingresa muestras reales o genera muestras falsas para su clasificación. También son las cuatro capas convolucionales en DCGAN.
La ventaja de utilizar múltiples discriminadores [2] aporta ventajas similares al impulso. Entrenar un discriminador que sea demasiado bueno afectará el rendimiento del generador, lo cual es un gran problema al que se enfrenta GAN. Si puedes entrenar a algunos discriminadores que no son tan fuertes y luego impulsarlos, puedes lograr buenos resultados e incluso puedes aplicar tecnología de abandono.
Varios discriminadores también pueden funcionar juntos. Por ejemplo, en la clasificación de imágenes, uno realiza una clasificación de grano grueso y el otro realiza una clasificación de grano fino. En las tareas del habla, se utilizan para procesar diferentes canales.
En general, la tarea del generador es más difícil que la del discriminador, porque tiene que ajustarse a la densidad de probabilidad de los datos, mientras que el discriminador sólo necesita identificar, lo que conduce a un problema que afecta el rendimiento de GAN, es decir, el colapso del modo, es decir, se generan muestras muy similares.
El uso de múltiples generadores y un único discriminador puede aliviar eficazmente este problema.
Como se puede ver en la estructura anterior, varios generadores adoptan la misma estructura y disfrutan de peso en la capa poco profunda de la red.
En la tarea de clasificación de imágenes semisupervisada que utiliza GAN, el discriminador debe desempeñar dos funciones al mismo tiempo, a saber, identificar las muestras falsas generadas y predecir la clasificación, lo que impone mayores requisitos al discriminador. Al agregar un clasificador, se puede compartir la carga de trabajo del discriminador, es decir, la tarea de capturar la distribución condicional de muestras y etiquetas se entrega al generador y al clasificador, mientras que el discriminador solo se enfoca en distinguir las muestras reales de las muestras generadas.
Esta estructura está representada por una red adversarial triple generativa. La siguiente figura muestra su estructura de red.
Existen varios generadores y discriminadores.
5.1 Estructura en cascada [5]
La resolución de las imágenes generadas por las primeras redes representadas por DCGAN era demasiado baja y la calidad no era lo suficientemente buena. Todos son más pequeños que 100×100, alrededor de 32×32 o 64×64. Esto se debe a que es difícil generar muestras de alta resolución al mismo tiempo y el proceso de convergencia es propenso a la inestabilidad.
También existen problemas similares en la segmentación de imágenes y la detección de objetivos. En la detección de objetos, las redes en cascada se utilizan ampliamente, es decir, el rendimiento del detector mejora de grueso a fino. Al realizar un muestreo superior en la segmentación de imágenes, también adoptamos el método de aprender pequeños aumentos en lugar de grandes aumentos. Por ejemplo, utilizar dos muestreos superiores en lugar de un muestreo cuádruple no solo puede mejorar la capacidad expresiva de la red, sino también reducir la dificultad de aprendizaje.
En base a esto, se propuso y utilizó ampliamente la estructura piramidal GAN. Se refiere a la estructura piramidal en el campo de la imagen y genera gradualmente imágenes de gruesas a finas y agrega residuos para el aprendizaje.
La imagen de arriba es su estructura. Comienza desde z3 de baja resolución, sube paso a paso y finalmente genera I0, que es una estructura en forma de pirámide. Los siguientes símbolos se sustituyen en su mayoría por imágenes.
5.2 Estructuras paralelas y cíclicas [6]
Una de las principales aplicaciones de GAN es la estilización, que realiza el intercambio de estilos entre dos dominios. CycleGAN [6] es un representante típico. Contiene múltiples generadores y múltiples discriminadores. La estructura típica del bucle es la siguiente:
x e Y representan las imágenes de los dos dominios respectivamente. Se puede ver que hay dos generadores G y F, que se utilizan para generar de X a Y e Y a X respectivamente, y contienen dos discriminadores, a saber, Dx y d Y. Además, la pérdida en sí también agrega una pérdida circular. Los lectores interesados pueden leer el artículo detenidamente.
Además, el multidiscriminador, el multigenerador y la multiestructura se utilizan a menudo en el aprendizaje entre dominios para aprender diferentes dominios respectivamente. Y el discriminador y el generador en cada dominio generalmente comparten algunos pesos, como se muestra en la figura siguiente, que es la estructura de red de CoGAN [7].
Además, existen algunas estructuras dispersas, como 3D GAN y RNN GAN, que son variaciones de las categorías anteriores y no se introducirán de forma unificada.
[1] Radford A, Mays L, Chintala S, et al. Aprendizaje de representación no supervisado basado en redes convolucionales generativas adversas profundas [J].
[2] Duruka, Kim Pu, Mahadevan, et al. Redes generativas de múltiples adversarios [J].
[3] Ghosh A, Kulharia V, Namboodiri V P, et al. Redes adversas generativas diversas de múltiples agentes [J].
[4] Chongxuan L I, Xu T, Zhu J, et al. Red adversarial triple generativa [J].
[5] Denton E L, Chintala S, Szlam A, et al. Modelo de imagen generativa profunda basado en la pirámide laplaciana [J].
[6] Zhu Jun, Park T, Isola P, et al. Traducción no emparejada de imagen a imagen basada en una red adversarial consistente en ciclos [J]. 2251.
[7] Liu M, Tuzer O. Redes generativas adversas acopladas [J]. Sistemas de procesamiento de información neuronal, 2016: 469-477.
Tabla de contenido completa de esta serie:
Interpretación del modelo de LeNet a VGG, observe la estructura de red de la serie convolución + agrupación.
Interpretación "Red en Red" del modelo de convolución 1*1, ¿lo entiendes?
¿Entiendes la interpretación del modelo de la estructura inicial en GoogLeNet?
Charlas de interpretación de modelos sobre el modelo de referencia de terminales móviles MobileNets
¿Dónde está el coordinador de interpretación de modelos?
La explicación del modelo de las conexiones restantes en resnet, ¿estás seguro de que realmente la entiendes?
Explicación del modelo de red neuronal convolucional "irregular"
¿Cuáles son los beneficios de la explicación del modelo de red convolucional "totalmente conectada"?
Explicación del modelo de red neuronal desde "conexión parcial" hasta "completamente conectada"
¿Puede un modelo explicar que una red de aprendizaje profundo solo puede tener una entrada?
¿Cuál es la diferencia en la interpretación del modelo de convolución 2D a convolución 3D?
Análisis de interpretación de patrones de RNN a LSTM