Red de conocimientos turísticos - Información de alquiler - Característica SIFT que coincide con las características de la imagen

Característica SIFT que coincide con las características de la imagen

SIFT tiene invariancia de escala e invariancia de rotación. Específicamente dividido en:

El operador laplaciano del operador gaussiano (LoG) con normalización de escala tiene invariancia de escala. En una implementación específica, la diferencia del operador gaussiano (DoG) se puede utilizar para aproximar al operador LoG y se pueden detectar puntos característicos estables en el espacio de escala construido.

Por lo tanto, el marco del espacio de escala incluye:

Cuanto mayor σ, más frecuencias altas se pierden.

Cada píxel debe compararse con los 26 píxeles circundantes para determinar si es el pico de la información de frecuencia adyacente en la escala actual.

¿Por qué necesitamos un posicionamiento preciso? Como somos discretos en las direcciones X, Y y sigma, necesitamos encontrar los puntos extremos del cambio continuo.

La expansión de Taylor de la función DoG D(X)=D(x, y, σ) en el espacio de escala es:

Supongamos que la derivada de D(X) es 0 y encuentre el punto de desplazamiento extremo del valor:

Si x = (x, y, σ) t es mayor que 0,5 en cualquier dimensión, significa que la posición exacta del punto extremo está más cerca de otro punto y el actual La posición del punto clave, ubique el nuevo punto y luego realice la misma operación. Si no converge después de cinco iteraciones, el punto de detección no se considera un punto crítico. El valor de la función en el punto clave preciso es:

| d (x) | es demasiado pequeño para ser interferido por puntos de ruido y se vuelve inestable. Si es inferior a un cierto umbral (como 0,03 o 0,04/S), se eliminarán los puntos extremos.

Para obtener puntos característicos estables, no basta con eliminar puntos con valores bajos de respuesta del perro. Debido a que DoG tiene un fuerte valor de respuesta a los bordes de la imagen, una vez que los puntos característicos caen en los bordes de la imagen, estos puntos se vuelven inestables. Por un lado, los puntos en el borde de la imagen son difíciles de localizar y son ambiguos, por otro lado, dichos puntos se ven fácilmente perturbados por el ruido y se vuelven inestables;

Los picos de respuesta de perro planos suelen tener una curvatura principal grande en el borde, pero una curvatura principal pequeña en la dirección perpendicular al borde. La curvatura principal se puede obtener a través de la matriz de Hesse h de 2×2.

La curvatura principal de d es proporcional al valor propio de h, por lo que α es el valor propio más grande, β es el valor propio más pequeño, α/β=r, entonces

(r 1 )2/r es más pequeño cuando los dos valores propios son iguales y aumenta con el aumento de R. Cuanto mayor es el valor de R, mayor es la relación entre los dos valores propios, lo que corresponde al caso límite. Por lo tanto, establezca el umbral rt. Si se alcanza el umbral rt,

entonces el punto clave no se considerará un borde; de ​​lo contrario, se eliminará.

Bien, hasta ahora, a través del diseño de la pirámide gaussiana, hemos completado la selección de puntos característicos y hemos logrado la invariancia de escala. A continuación, es hora de corregir la invariancia de rotación.

La invariancia rotacional aquí es algo diferente de la invariancia rotacional de nuestros ángulos. La invariancia del punto de esquina de Harris depende de si es un punto de esquina o un punto de esquina rotado, por lo que todos los puntos de esquina correspondientes a la imagen completa son invariantes de rotación. Pero en SIFT, necesitamos asignar una dirección a cada punto característico, de modo que para un solo punto característico, sin importar cómo se escale o gire, esta dirección como atributo no cambiará.

Para que el descriptor de características gire invariante, es necesario utilizar las características de distribución de dirección del gradiente de los píxeles cerca del punto clave para especificar el parámetro de dirección para cada punto clave. Para los puntos clave detectados en la pirámide del perro, la magnitud del gradiente y la dirección de cada píxel se calculan en la ventana de vecindad 3σ de la imagen de la pirámide gaussiana. La fórmula es la siguiente:

l es el nivel de gris de. el espacio de escala donde se encuentra el valor del punto clave, m(x,y) es la magnitud del gradiente y θ(x,y) es la dirección del gradiente. El módulo m(x, y) de los píxeles de la ventana se pondera según una distribución gaussiana con σ = 1,5 σ oct, y la ventana de vecindad es 3 σ = 3× 1,5 σ oct.

Una vez completado el cálculo del gradiente del punto clave, el gradiente y la dirección de los píxeles en la vecindad se calculan utilizando un histograma. El histograma del gradiente divide la dirección del gradiente (0, ¿360?) en 36 contenedores. . Como se muestra en la figura siguiente, la dirección del pico del histograma representa la dirección principal del punto clave.

El valor máximo del histograma de dirección del gradiente representa la dirección principal del gradiente de vecindad en el punto característico. Para mejorar la robustez, la dirección con un valor máximo superior al 80% del pico de la dirección principal se conserva como dirección auxiliar del punto clave. Por lo tanto, en la misma posición y escala, se generarán múltiples puntos clave en diferentes direcciones, lo que puede mejorar la estabilidad de la coincidencia de puntos característicos.

En este momento, los puntos clave que se detectarán, incluida la posición, la escala y la dirección, son los puntos característicos de SIFT de la imagen.

Cada punto clave está descrito por un vector de 128 dimensiones.

A través de los pasos anteriores, para cada punto clave, tenemos tres datos: posición, escala y dirección. El siguiente paso es establecer un descriptor para cada punto clave y utilizar un conjunto de vectores para describir este punto clave para que no cambie con varios cambios, como cambios de iluminación, cambios de ángulo de visión, etc. El descriptor incluye no sólo el punto clave sino también los píxeles alrededor del punto clave que contribuyen a él, y el descriptor debe ser altamente exclusivo para aumentar la probabilidad de una coincidencia correcta de los puntos característicos.

El descriptor SIFT es una representación de los resultados estadísticos de los gradientes de imagen gaussianos en las proximidades de puntos clave. Al dividir el área de la imagen alrededor del punto clave en bloques, se calcula el histograma de gradiente dentro del bloque y se genera un vector único, que es una abstracción y unicidad de la información de la imagen en esta área.

El descriptor de característica está relacionado con la escala del punto característico, por lo que el gradiente debe obtenerse en la imagen gaussiana correspondiente al punto característico. Divida el vecindario cerca del punto clave en subregiones d * d (Lowe recomienda d = 4), cada subregión sirve como un punto inicial y cada punto inicial tiene 8 direcciones. El tamaño de cada subregión es el mismo que cuando se asignan claves en la dirección.

Cada unidad representa un píxel en el espacio de escala donde se encuentra la vecindad del punto característico. La dirección de la flecha representa la dirección del gradiente del píxel y la longitud de la flecha representa la amplitud del píxel. Luego, el histograma de dirección del gradiente de 8 direcciones se calcula en una ventana de 4 × 4. Dibuja la acumulación de cada dirección del gradiente para formar un punto inicial.

De esta manera, los sistemas de coordenadas de características de las dos imágenes se basan en la dirección de los puntos clave y son invariantes a la rotación.

La información de gradiente de 4 4 ​​8 = 128 calculada anteriormente es el vector de características de este punto clave. Una vez formados los vectores de características, es necesario normalizarlos para eliminar los efectos de los cambios de iluminación. Para la deriva general del valor de gris de la imagen, el gradiente de cada punto de la imagen se obtiene restando los píxeles adyacentes, por lo que también se puede eliminar.

El umbral del vector descriptor. Los cambios de iluminación no lineal y saturación de la cámara provocan valores de gradiente excesivos en algunas direcciones, pero tienen un efecto débil en las direcciones. Por lo tanto, establezca un umbral (generalmente 0,2 después de la normalización del vector) para cortar valores de gradiente más grandes. Luego normalice nuevamente para mejorar la distinción de características.

Ordene los vectores de descripción de características según la escala de los puntos característicos.

Para los puntos característicos detectados en las dos imágenes, la distancia euclidiana de los vectores característicos se puede utilizar como similitud. de los puntos característicos, tomando un punto clave en la imagen 1, puede encontrar los dos puntos clave más cercanos en la imagen 2. Si la relación entre la distancia más cercana y la segunda distancia más cercana es menor que un cierto umbral, el par de puntos clave más cercano a él puede considerarse un punto coincidente. Cuando se reduce el umbral de proporción, el número de puntos de coincidencia SIFT disminuirá, pero será relativamente más estable. La relación umbral generalmente oscila entre 0,4 y 0,6.

SIFT es un algoritmo para detectar, describir y hacer coincidir puntos característicos de imágenes locales. Al detectar puntos extremos en el espacio de escala, se extraen las invariantes de posición, escala y rotación, se abstraen en vectores de características para describir y finalmente se utilizan para la coincidencia de puntos de características de la imagen. Las funciones SIFT son invariantes a la escala de grises, la transformación de contraste, la rotación y el escalado, y también son resistentes a los cambios de ángulo de visión, los cambios afines y el ruido. Sin embargo, su rendimiento en tiempo real no es alto y los puntos característicos no se pueden extraer con precisión de objetos con bordes suaves.

La invariancia de rotación se obtiene calculando la dirección de los puntos clave y girándolos; la pirámide gaussiana se obtiene mediante la reducción de resolución de la imagen para obtener la invariancia de escala.