Resumir el campo receptivo
1. Definición
El campo receptivo se refiere al área de la imagen de entrada que puede ser vista por las características de la red neuronal convolucional. En otras palabras, la salida de. la característica se ve afectada por los píxeles en el campo receptivo.
Por ejemplo, en la figura siguiente (por conveniencia, dos dimensiones se simplifican en una dimensión), los núcleos de convolución de cada capa de esta red neuronal convolucional de tres capas son ?_ = 3?, ? 1, entonces el dominio sensorial correspondiente a la característica de la capa superior es 7x7, como se muestra en la figura.
II.Cálculo
El dominio sensorial de la primera capa [1]
El dominio sensorial de la característica de la segunda capa es 5
La segunda capa El dominio sensorial de la capa 3 [1]
El dominio sensorial de las características de la capa 3 es 7
El dominio sensorial de la capa 3[1]
Si hay un Producto de volumen expandido, la fórmula de cálculo es
3. Siguiente nivel
Lo anterior es el campo receptivo teórico y el campo receptivo efectivo de la característica (el campo receptivo real del personaje) es en realidad mayor que el campo receptivo teórico mucho más pequeño, como se muestra a continuación. El análisis matemático específico es relativamente complicado y no se describirá en detalle. Si está interesado, puede consultar el artículo [2].
Ejemplo de campo receptivo efectivo[2]
Diagrama de flujo de cálculo de conv 3x3 de dos capas
Aplicación
Clasificación
Cao Xudong escribió un artículo técnico llamado "Teoría práctica del diseño de redes neuronales convolucionales extremadamente profundas".
En primer lugar, se debe garantizar que cada capa convolucional tenga la capacidad de aprender patrones más complejos; en segundo lugar, el campo receptivo de la capa superior no debe ser mayor que el área de la imagen.
La segunda condición es la restricción del tamaño del campo receptivo de la capa superior de la red neuronal convolucional.
Detección de objetivos
La mayoría de las redes de detección de objetivos más populares actualmente se basan en anclajes, como la serie SSD, yolo después de v2 y la serie rcnn más rápida.
La red de detección de objetivos basada en anclajes preestablecerá un conjunto de puntos de anclaje de diferentes tamaños, como 32x32, 64x64, 128x128, 256x256, ¿en qué capa deberíamos colocarlos? ¿paño? En este punto, el tamaño del campo sensorial es una consideración importante.
El dominio sensorial característico de la capa de anclaje colocada debe coincidir con el tamaño del ancla. No es bueno si el dominio sensorial es demasiado grande que el ancla, y no es bueno si el dominio sensorial es demasiado. pequeño que el ancla. Si el campo receptivo es mucho más pequeño que el punto de anclaje, es como darte un pie y dejarte decir qué tipo de pájaro es. Si parece que el campo de fuerza es mucho más grande que el punto de anclaje, es como darte un mapa del mundo y pedirte que indiques dónde está la Ciudad Prohibida.
El S3FD: papel detector de rostros invariante de escala de un solo disparo es un ejemplo de diseño de escalas de anclaje basadas en campos receptivos.
El artículo "FaceBoxes:
Introducimos capas convolucionales multiescala
(MSCL) para enriquecer
el campo receptivo y el Los puntos de anclaje se dividen en capas para manejar caras de varias escalas
Cita:
[1] Red neuronal convolucional
[2] Comprensión de las convoluciones profundas Campo receptivo efectivo en red neuronal acumulativa
Lectura recomendada:
Siga la cuenta oficial SIGAICN, responda al artículo para obtener el código y podrá obtener el enlace de texto completo
[1] Aprendizaje automático: 40 años de Ripple Obtenga el código SIGAI0413
[2] Aprendizaje automático.
¿Qué conocimientos matemáticos se requieren? Obtenga el código SIGAI0417.
[3] Evolución del algoritmo de reconocimiento facial Obtenga el código SIGAI0420.
[4] Descripción general de los algoritmos de detección de objetivos basados en el aprendizaje profundo Obtenga el código SIGAI0424.
[5] ¿Por qué las redes neuronales convolucionales pueden dominar el campo de la visión por computadora? Obtenga el código SIGAI0426.
[6] ¿Cómo pueden las redes neuronales convolucionales convertirse en líderes en el campo de la visión por computadora? Obtenga el código SIGAI0426.
[6] Comprenda el contexto de SVM en una imagen Obtenga el código SIGAI0428.
[7] Descripción general de los algoritmos de detección de rostros.
[8] Comprenda la función de activación de las redes neuronales y obtenga el código SIGAI0505.
[9] ¿Cuáles son las ventajas de las redes neuronales profundas en el campo de la visión por computadora?
[9] Historia evolutiva y mejoras estructurales de redes neuronales convolucionales profundas: 40 páginas de explicación completa, obtenga el código SIGAI0508.
[10] Comprensión del descenso de gradiente, obtenga el código SIGAI0511.< / p>
[11] Redes neuronales recurrentes: revisión del reconocimiento de voz y procesamiento del lenguaje natural Obtenga el código SIGAI0515.
[12] Desarrollo y mejora de las redes neuronales: una explicación completa de 40 páginas Obtenga el código SIGAI0503.
[13] Desarrollo y mejora de redes neuronales: 40 páginas de explicación completa Obtenga el código SIGAI0504.