De las redes neuronales profundas a los procesos físicos
El aprendizaje profundo es un proceso que descompone los nodos en capas de entrada, capas de salida y capas ocultas intermedias. Los nodos de la misma capa no se pueden conectar, solo se pueden conectar a nodos de capas adyacentes.
Si configuramos el número de secuencia de la capa de entrada en 0 y el número de secuencia de la capa de salida en N, entonces al nodo también se le puede asignar una columna de número de secuencia, registrada como $x_{i,n }$, donde n representa el número de serie de la capa, i representa el número de serie de x en la capa. La función de activación se registra como f y el peso de la conexión se registra como $ \ omega ^ i_ {i, n} $, que representa la conexión desde el i-ésimo nodo en la capa n hasta el j-ésimo nodo en la capa n + 1. El proceso de flujo de datos en una red neuronal multicapa de este tipo se puede registrar como la siguiente ecuación:
Aquí se utiliza la convención de Einstein y los mismos indicadores se suman automáticamente.
La ecuación anterior se puede reescribir en la siguiente forma simbólica:
Reescribimos el indicador intracapa original i como x, y el valor de salida de cada nodo se reescribe de x a $\phi$, el número de capa se marca con t y el peso de la conexión se cambia a la función G.
Esto es sólo un cambio de símbolo, y el significado no ha cambiado en absoluto.
Pero vale la pena reflexionar sobre la forma de esta ecuación, porque si se ignora la función de activación f, entonces la forma de la siguiente ecuación es en realidad un sistema de estados propios discreto reescrito con una función de correlación de dos puntos (función de Green ) en mecánica cuántica La ecuación de evolución de la función de onda de:
Por lo tanto, una idea muy sencilla es: ¿qué sucede si x es continua?
Es decir, si continuamos el espacio compuesto por nodos discretos en cada nivel en un espacio unidimensional, ¿qué obtendremos?
La respuesta es muy sencilla:
El segundo paso es tomar directamente la función inversa. Esto no es un problema para la función de activación sigmoidea, pero me temo que no se puede hacer. aquí para la función de activación ReLU, porque Es una función de valor constante 0 en el semieje negativo y la función inversa no existe. La función de activación Swish basada en la transformación ReLU tampoco es fácil de usar porque no es monótona en el semieje negativo y tendrá valores dobles, por lo que no existe una función inversa.
Por tanto, este método de escritura es bastante formal.
La continuización del espacio (indicadores de nodos neuronales) es bastante "suave", si ignoramos los problemas provocados por la inexistencia de funciones inversas.
La continuidad del tiempo (indicadores de capa neuronal) es un poco problemática.
Primero hagamos algunas modificaciones a los resultados anteriores:
Luego podemos hacer una continuación formal muy fuerte:
Esto en realidad es equivalente a introducir una normalización invisible. condición:
O se puede escribir para que sea más "universal" para la función de activación:
Más precisamente, ya que aquí no importa la salida del nodo Ya sea el valor $\phi$ o Si se conoce la función de activación de la función de conexión de dos puntos G, el requisito de normalización de la fórmula anterior es en realidad un ajuste de normalización de G, es decir:
Podemos tomar la función de conexión de dos puntos después ajuste de normalización como la nueva función de conexión de dos puntos, teniendo así la ecuación de movimiento final:
Formalmente hablando, puede considerarse como una ecuación hamiltoniana no relativista, o, más similarmente, la ecuación de difusión térmica (porque no existe una unidad imaginaria clave i).
Podemos separar las funciones de correlación de dos puntos. Normalizamos la función de correlación de dos puntos a 1, entonces la ecuación dinámica en este momento es:
Haz otra deformación de la ecuación final:
Dado que la función de correlación de dos puntos es Ahora unificado normalizado, podemos pensar en ello de una manera muy arbitraria y formal como el término de movimiento y el potencial no local, incluida la función de onda y el término de momento de la función de onda (la razón se explicará más adelante), y el se resta más tarde Un término puede considerarse como una combinación de un término de energía potencial localizado y un término de masa.
Comparemos la ecuación no relativista de Schrödinger:
¿Se siente similar en forma?
La principal diferencia radica en los puntos del medio.
Así que tratemos este elemento a continuación.
Deformar la parte integral (al mismo tiempo, tomamos directamente el índice intracapa como forma de coordenadas y por lo tanto como vector):
Entre ellos, el primer paso es Todo el espacio se descompone en una serie de esferas concéntricas con características de divergencia.
El resultado final, la primera parte es un gradiente radial, más un potencial central, que es el "término de movimiento y término de impulso no local antes mencionado, incluida la función de onda y la función de onda" Potencial no local ”.
A continuación, tomamos una superficie infinitesimal, es decir, r está solo en la vecindad de 0, y la función de correlación de dos puntos en el rango macroscópico es 0. En un caso tan especial, la profundidad correspondiente La red neuronal es ligeramente Hablaremos de ello más adelante, entonces tenemos:
Si tomamos la parte simétrica de G como $\hat G$ y la parte antisimétrica como $\tilde G$, entonces tenemos :
En la segunda parte, G se considera una función métrica de Finsler, por lo que lo que se proporciona aquí es el operador diferencial de segundo orden $\nabla^2_G$ bajo la métrica de Finsler, multiplicado por un coeficiente constante. relacionado con la bola índice bajo la métrica de Finsler $g_G $.
El primer término es el producto vectorial de la conexión del haz similar a una fibra inducida por la parte antisimétrica de la métrica de Finsler y el gradiente de la función de onda, multiplicado por otro coeficiente constante $A_G$ relacionado con la bola indicadora.
Al respecto, puedes leer el antiguo artículo escrito antes: "De la geometría débil de Finsler a los campos de calibre".
Por lo tanto, bajo las restricciones de la función de conexión infinitesimal, la ecuación anterior es:
¿Tiene una forma muy simple?
Y el significado de cada término también es claro:
El coeficiente de conexión da la métrica de Finsler, y su parte antisimétrica da la fuerza manométrica similar a la conexión del haz de fibras, y su global El cambio da la gravedad del cambio de curvatura espacio-tiempo; y el coeficiente normalizado del coeficiente de conexión requerido por la función de activación es la situación global en el espacio y el tiempo.
Por lo tanto, todo el proceso de aprendizaje de la red neuronal profunda consiste en deducir inversamente la conexión de Finsler y la situación general de todo el espacio-tiempo a través de la matriz de dispersión de entrada y salida.
La llamada función de correlación de dos puntos, que solo es válida dentro de una vecindad infinitesimal, antes de la continuidad, en realidad corresponde al núcleo de convolución mínimo (convolución 3 * 3) en la red neuronal convolucional.
Si continuamos introduciendo otro requisito de la red neuronal convolucional, es decir, el núcleo de convolución es el mismo en la misma capa, entonces es equivalente a limitar la métrica de Finsler a solo una función del tiempo t :
Evidentemente, toda la estructura se ha simplificado mucho.
Si todas las capas de esta red convolucional comparten parámetros, equivaldría a cancelar el tiempo t en la ecuación anterior, lo que sería más sencillo.
Y si tomamos la función de activación como f(x)=nx, entonces equivale a cancelar la situación general. Lo más importante es que si dos de estas funciones se unen en el origen, se obtendrá la función de activación que cancela la situación global. La más famosa de estas funciones de activación es la función ReLU, que se encuentra en el semi-negativo. eje (por supuesto $\phi El valor de $ no puede alcanzar el semieje negativo...) $\Gamma$ siempre es 0, y $\Gamma$ siempre es 1 en el semieje positivo, por lo que la energía potencial equivalente la función V es siempre 0.
Por lo tanto, ReLU puede considerarse como un sistema cuántico "libre" o un sistema de difusión térmica "libre" en un determinado espacio-tiempo de Finsler, ¿no?
Para sistemas que no lo son vecinos infinitesimales La situación del dominio en realidad se puede obtener integrando la situación de vecindades infinitesimales en un intervalo finito, por lo que en realidad es un operador no local sobre las derivadas de primer y segundo orden.
De manera similar, la red residual introduce conexiones entre capas en diferentes intervalos, lo que puede considerarse como un cálculo no local (en el tiempo) que reemplaza la derivada del tiempo de primer orden original con una derivada de primer orden. . símbolo.
En cuanto a la red neuronal recurrente, debido a que introduce un "tiempo" que es diferente del número de capas n, no se considerará aquí por el momento, o se puede considerar que el tiempo virtual se presenta?
Si adoptamos la perspectiva de la teoría cuántica de campos (aunque obviamente no es la teoría cuántica de campos), entonces el aprendizaje profundo es un proceso de este tipo:
Primero, conocemos el estado inicial de el sistema a través de experimentos estado (capa de entrada) y estado final (valor objetivo de la capa de salida), y lo que no sabemos es la métrica (coeficiente de conexión) del espacio-tiempo donde se encuentra el sistema y la energía potencial ( función de activación) del espacio-tiempo.
Por lo tanto, analizamos las características de este espacio-tiempo a través de una gran cantidad de experimentos (a través de una gran cantidad de materiales de aprendizaje de entrada y salida) y seleccionamos la función de energía del sistema adecuada (el RBM dado primero por Hinton y la distribución en el sistema térmico). La similitud de funciones (usando la función de energía del modelo unidimensional de Ising para analogizar la función de error de la capa de salida) hace que el espacio-tiempo corresponda al estado de energía más bajo de todo el sistema. sistema el espacio-tiempo objetivo que estamos buscando; esto también es fácil de entender, en el espacio-tiempo La geodésica es generalmente el estado de energía más bajo, y la geodésica corresponde a la matriz de dispersión cuando hay interacción La matriz de dispersión describe la relación. entre el estado final y el estado inicial, por lo que, a su vez, si conoce el estado final y el estado inicial, puede intentar averiguarlo. Usando la matriz de dispersión, podemos intentar obtener la geodésica y, por lo tanto, podemos intentar Obtenga el espacio-tiempo en el que la geodésica es el estado de energía más bajo, y así obtenga las propiedades del espacio-tiempo. Esta lógica es muy razonable.
En última instancia, utilizamos el espacio y el tiempo encontrados para predecir el estado final correspondiente a un estado inicial determinado, utilizando los resultados aprendidos por la red neuronal para la predicción y la aplicación.
Por tanto, el proceso de entrenamiento de redes neuronales puede considerarse como un proceso en el que los físicos utilizan resultados experimentales para inferir las propiedades del espacio y el tiempo.
Muy científico.
Finalmente, cabe señalar que aunque la derivación anterior es muy alta, en realidad no nos ayuda en absoluto a resolver problemas como el aprendizaje de redes neuronales.
En el mejor de los casos, solo puede considerarse como una perspectiva diferente sobre las redes neuronales, ¿no?
Este artículo se rige por la licencia CC BY-NC-SA 4.0