Red de conocimientos turísticos - Conocimientos sobre calendario chino - Fórmula de red bayesiana para un sistema de identificación inteligente que ingresa varias características de la planta

Fórmula de red bayesiana para un sistema de identificación inteligente que ingresa varias características de la planta

La clasificación bayesiana es un método de clasificación estadística. Pueden predecir la probabilidad de pertenencia a una clase, como la probabilidad de que una muestra determinada pertenezca a una clase específica.

La clasificación bayesiana ingenua [2] supone que el impacto de un valor de atributo en una clase determinada es independiente de los valores de otros atributos. Esta suposición se denomina independencia condicional de clase.

Configure la muestra de datos para que se represente mediante un vector de características n-dimensional X = {x1, x2,, xn}, que describe respectivamente n medidas de n atributos A1, A2,, Una muestra. Supongamos que hay m clases C1, C2, Cm. Dada una muestra de datos desconocida X (es decir, sin etiqueta de clase), el método de clasificación bayesiano ingenuo predecirá que P (Cj | X), 1≤j≤m, j≠i De esta manera, P(Ci | Entre ellos, la clase más grande Ci de P(Ci | La clase es una constante, y solo necesita que P(X | Ci)P(Ci) sea la más grande. Y en consecuencia maximizar P(Ci|X). De lo contrario, maximice P(X | Ci)P(Ci). Calcular P(X | Ci)P(Ci) puede resultar muy costoso dado un conjunto de datos con muchos atributos. Para reducir el costo de calcular P(X| Ci), se puede hacer un supuesto ingenuo de independencia condicional de clase. Dada la etiqueta de clase de la muestra, se supone que los valores de los atributos son condicionalmente independientes entre sí, es decir, no existe dependencia entre los atributos,

Fórmula (2) <. /p>

La probabilidad puede determinarse mediante la valoración de la muestra de entrenamiento:

(1) Si Ak es un atributo de clasificación, entonces P(xk|Ci)=sik/si donde sik es el número de muestras de entrenamiento de clase Ci con valor xk en Ak, y si es Ci El número de muestras de entrenamiento en .

(2) Si Ak es un atributo de valor continuo, generalmente se supone que el atributo obedece a una distribución gaussiana. Por lo tanto

Fórmula (3)

Entre ellos, el valor del atributo Ak de la muestra de entrenamiento de la clase dada Ci es la función de densidad gaussiana del atributo Ak, y son la media y la desviación estándar respectivamente.

El algoritmo de clasificación Naive Bayes (en lo sucesivo, NBC) tiene la tasa de error más pequeña. Sin embargo, este no es el caso en la práctica, debido a la incertidumbre sobre los supuestos sobre su aplicación (como la independencia condicional de clase) y la falta de datos probabilísticos disponibles. Las principales manifestaciones son:

① Puede haber dependencias entre diferentes atributos de detección, como protocolo_type, src_bytes y dst_bytes. Siempre habrá una cierta conexión entre los tres atributos

②. Cuándo Pueden surgir problemas obvios cuando la distribución de atributos de valores continuos es polimórfica. En este caso, considerar el problema de clasificación es más complicado, o deberíamos considerar otro tipo de análisis de datos al realizar el análisis de datos.

Este último método se analizará en detalle en los siguientes capítulos.

3 Mejora de Naive Bayes: estimación de la densidad del kernel

La estimación de la densidad del kernel es un método Naive Bayes común, que resuelve principalmente el problema de que cada atributo de valor continuo se establezca en Los problemas causados ​​por Las distribuciones gaussianas son las mencionadas en la sección anterior. En [3], el autor cree que los valores de atributos continuos se basan más en la estimación de la densidad del núcleo que en la estimación gaussiana.

El algoritmo de clasificación de estimación de densidad del kernel de Naive Bayes (en lo sucesivo, K-NBC) es muy similar a NBC, excepto que cuando se calcula la probabilidad de atributos continuos: NBC utiliza una función de densidad gaussiana para evaluar el atributo. mientras que K -NBC, como su nombre indica, utiliza una función de densidad del kernel gaussiana para evaluar las propiedades.

Su fórmula estándar de densidad del núcleo es

Fórmula (4)

donde h=σ se denomina ancho de banda de la densidad del núcleo, K=g(x, 0, 1), que es definida como función no negativa. De esta manera, la fórmula (4) se transforma en la fórmula (5)

Fórmula (5)

La densidad del núcleo gaussiano se utiliza para el análisis de datos en K-NBC. Esto se debe a que es gaussiano. La densidad tiene características de curva más ideales. La Figura 1 ilustra que la distribución de probabilidad de los datos reales está más cerca de la curva de densidad del núcleo gaussiano.

Figura 1 Dos densidades de probabilidad diferentes evalúan los datos en la transacción, donde la línea negra representa la densidad gaussiana y la línea de puntos representa la densidad estimada del núcleo y el algoritmo Bayes ingenuo de ancho de banda con dos valores diferentes es utilizado para calcular μc y σc, solo es necesario almacenar la suma de los valores observados xk y su suma de cuadrados, lo cual es suficiente para una distribución normal. La densidad del kernel necesita almacenar el valor de cada atributo continuo durante el proceso de entrenamiento (durante el proceso de aprendizaje, solo es necesario almacenar el valor de frecuencia del atributo nominal en la muestra, que es lo mismo que el algoritmo ingenuo de Bayes). Al clasificar casos, al calcular la probabilidad de atributos de valores continuos, el algoritmo ingenuo de Bayes solo necesita evaluar g una vez, mientras que el algoritmo de estimación de densidad del núcleo necesita evaluar cada valor de observación del atributo X en cada clase c n veces. En vista del aumento del espacio de almacenamiento computacional y la complejidad del tiempo, la Tabla 1 compara la complejidad del tiempo y los requisitos de memoria de los dos métodos.

4 Investigación experimental y análisis de resultados

El objetivo de esta sección es evaluar el efecto de nuestro algoritmo de clasificación de evaluación de densidad de núcleo propuesto en la clasificación de datos de auditoría de intrusiones, principalmente a partir de la tasa de detección general. , tasa de detección y analicemos la tasa de detección falsa.

Tabla 1 Dadas n transacciones de entrenamiento ym atributos de detección,

La complejidad del algoritmo de NBC y K-NBC

Densidad del kernel de Naive Baye

Espacio temporal Espacio temporal

Datos de entrenamiento con n transacciones O(nm) O(m) O(nm) O(nm)

Datos de prueba con q transacciones O(qm) O(qnm)

4.1 Configuración del experimento

En el experimento, utilizamos NBC para comparar con K-NBC. Además, al observar la complejidad de los dos algoritmos en la Tabla 1, se puede ver que reducir efectivamente los atributos de detección puede mejorar su velocidad de operación, mientras que eliminar atributos de detección irrelevantes también puede mejorar la eficiencia de la clasificación. Este artículo presentará la inferencia simétrica en detalle. siguiente sección. Determine cómo el método [4] preprocesa los datos de auditoría de intrusiones. También realizaremos un análisis comparativo en el experimento.

Utilizamos WEKA para realizar este experimento. Los datos en KDDCUP99[5] se utilizan como conjunto de muestras de entrenamiento y conjunto de muestras de prueba del clasificador de detección de intrusiones, donde cada registro se describe mediante 41 atributos discretos o continuos (como duración, tipo de protocolo, etc.) y está marcado con El tipo al que pertenece (por ejemplo, tipo de ataque normal o específico). Todos los datos se clasifican en 23 categorías. Aquí dividimos estos tipos de comportamientos de red en 5 categorías principales de comportamientos de red (Normal, DOS, U2R, R2L, Probe).

En el experimento, dado que KDDCUP99 tiene más de 5 millones de registros, para facilitar el procesamiento, extrajimos uniformemente 50.000 datos de kddcup.data.gz según cinco tipos de comportamientos de red como muestra de entrenamiento. conjunto y los dividió en 5 grupos, cada grupo tiene 10,000 datos, de los cuales los datos normales ocupan el 98,5% de todo el grupo de datos. Esto está en línea con la proporción de datos normales en el entorno real que es mucho mayor que. los datos de intrusión.

Primero detectamos la situación en la que solo hay intrusiones similares en un grupo de datos, ***4 grupos de datos (neptune en DOS, Satan en Problem, buffer_overflow en U2R, Supongo_passwd en R2l), y luego detectamos la situación en la que hay varios tipos de datos de intrusión en un conjunto de datos. Una vez que el clasificador está bien entrenado, se extraen 5 grupos de datos de los datos de KDD99 como muestras de prueba, que representan Noraml-DOS, Normal-Probe, Normal-U2R y Normal-R2L, respectivamente. El último grupo son datos mixtos. Son 10.000 piezas.

4.2 Preprocesamiento de datos

Dado que Naive Bayes asume que el impacto de todos los atributos a medir en una clase determinada es independiente de los valores de otros atributos, sin embargo, en la realidad Los datos no siempre son así. Por lo tanto, este artículo presenta la teoría de la incertidumbre simétrica para preprocesar los datos y eliminar atributos irrelevantes en los datos.

La teoría de la incertidumbre simétrica se basa en la teoría del concepto de información. Primero, comprendamos el concepto de teoría de la información. La entropía del atributo X es:

Fórmula (6)

.

Dada una variable observada Y, la entropía de la variable X es:

Fórmula (7)

P(xi) es la probabilidad a priori de todos los valores de la variable) es la probabilidad posterior de X dadas las observaciones Y,X. Estas disminuciones en la entropía de X|Y)>IG(X|Y), entonces el atributo Y es más relevante para el atributo X que el atributo Z.

Teorema: Para dos variables aleatorias, la ganancia de información entre ellas es simétrica. Es decir,

Fórmula (9)

La simetría es una característica relativamente ideal para el método de medir la correlación entre atributos. Pero al calcular la ganancia de información para atributos con muchos valores, los resultados pueden estar sesgados. Y para garantizar que sean comparables, estos valores deben discretizarse, lo que también provocará sesgos. Por lo tanto, introducimos incertidumbre simétrica,

Fórmula (10)

Seleccione buenos atributos mediante los dos pasos siguientes:

① Calcule todos los valores SU medidos de atributos y clases, y organizarlos en orden descendente

② Eliminar atributos irrelevantes según el umbral establecido;

Finalmente, se determina un umbral óptimo δ. Aquí determinamos el valor analizando los resultados del cálculo de NBC y K-NBC.

4.3 Resultados y análisis experimentales

En el experimento, el porcentaje de clasificaciones correctas se registró como criterio de evaluación para la eficiencia de clasificación. La Tabla 2 muestra la eficiencia de clasificación de los dos algoritmos.

Tabla 2 Resultados de detección correspondientes a datos del mismo tipo de intrusión

Conjunto de datos

Algoritmo DOS

(neptune) Problema

(satan) R2L

( supongo_passwd) U2R

(buffer_overflow)

Tasa de detección Tasa de detección falsa Tasa de detección general Tasa de detección Tasa de detección falsa general Tasa de detección Tasa de detección Tasa de detección falsa Tasa de detección general Tasa de detección Tasa de detección falsa Tasa de detección general

NBC 99,5 0,2 99,79 98,3 0,1 99,84 97,3 0,8 99,2 95 1,8 98,21

K-NBC 99,5 0,2 99,96 98,3 0 99,96 97,3 0,2 99,81 71 0,1 99,76

SU NBC 99,5 0 99,96 98,3 0,1 99,85 98 0,7 99,24 9 1,1 98,84

SU K-NBC 99 0,5 0 99,96 98,3 0 99,96 98,7 0,2 99,76 85 0,1 99,81

De acuerdo con las cuatro categorías diferentes de resultados de detección de intrusiones en la Tabla 2, analizamos desde los siguientes tres aspectos:

(1) Tasa de detección general. La tasa de detección general de K-NBC es más alta que la de NBC. Esto se debe a que K-NBC tiene una tasa de detección de datos normales más alta que NBC, y los datos normales representan más del 95% de todo el conjunto de datos de detección. muestra que la curva de distribución de datos normal mencionada en la sección anterior está más cerca de la curva de densidad del núcleo.

(2) Tasa de detección. En los resultados de detección de los dos conjuntos de datos, DOS y PROBLE, las tasas de detección de los dos algoritmos son las mismas. Esto se debe a que estos dos tipos de comportamientos de intrusión representan la gran mayoría de las intrusiones, y este tipo de datos es más fácil. para detectar, por lo que los dos Los efectos de detección de los algoritmos son relativamente cercanos para la detección R2L. Se puede ver en la Tabla 2 que antes del preprocesamiento de datos, las tasas de detección de los dos algoritmos son las mismas, pero después del preprocesamiento de datos, la detección. Las tasas de mejora de los dos algoritmos son las mismas y la eficiencia de K-NBC es mejor que la de NBC; en cuanto a los resultados de detección de U2R, K-NBC es un poco peor que la de NBC. K-NBC se ha mejorado hasta cierto punto, pero aún es menos efectivo que el de NBC.

(3) Tasa de falsa detección. Las tasas de detección falsa de los dos grupos de datos, DOS y Problema, son las mismas. En los otros dos grupos de datos, la tasa de detección falsa de K-NBC es menor que la de NBC.

Según el análisis de resultados en la Tabla 3, también podemos ver que los resultados de detección son similares a los resultados de detección grupal en la Tabla 2 y, desde una perspectiva integral, el efecto de detección de K-NBC es mejor. que el de NBC. Aquí, también encontramos que los efectos de detección de los dos algoritmos en intrusiones R2L y U2L son peores que los de DOS y intrusiones problemáticas. Esto se debe principalmente a que estos dos tipos de intrusiones son tipos raros de intrusiones y, en consecuencia, la dificultad de detección aumenta. En la competición KDD99, el método campeón también obtuvo los peores resultados de detección en estas dos categorías. Pero podemos ver que NBC es más preciso al detectar el comportamiento de intrusión de esta clase poco común. Esto debería significar que la distribución de las clases raras está más cerca de la distribución normal.

A partir del análisis exhaustivo de los aspectos anteriores, podemos demostrar que K-NBC tiene sus ventajas como algoritmo de clasificación de detección de intrusos.

Tabla 3 Resultados de la detección de datos de tipos de intrusión mixtos

Conjunto de datos

Algoritmo de detección de clasificación de detección general

Problema Dos normal R2L U2R

Tasa de detección Tasa de detección falsa Tasa de detección Tasa de detección falsa Tasa de detección Tasa de detección falsa Tasa de detección Tasa de detección falsa Tasa de detección Tasa de detección falsa Tasa de detección Tasa de detección falsa

NBC 98,14 1,8 98,2 0,8 99,8 0 99,8 0 90 0 86,7 1,8

K-NBC 99,78 0,2 99,8 2,3 99,8 0 99,8 0 96 0 73,3 0,1

SU NBC 97,99 2,0 98 0,8 99,8 0 99,8 0 90 0 86,7 1,9

SU K-NBC 99,79 0,2 99,8 1,9 99,8 0 99,8 0 96 0 80 0,1

5 Conclusión

En este artículo, utilizamos la función de densidad del núcleo gaussiano En lugar de la función gaussiana en Naive Bayes, establecemos un clasificador K-NBC para detectar el comportamiento de intrusión. Además, utilizamos el método de incertidumbre simétrica para eliminar los atributos que son irrelevantes para la clase en los datos de detección, mejorando así aún más el núcleo. Densidad Naive Bayes Sí, la eficiencia de clasificación, los experimentos muestran que los datos de auditoría preprocesados, combinados con K-NBC para la detección, pueden lograr mejores resultados de clasificación y tienen buena viabilidad. Al mismo tiempo, también notamos que dado que los comportamientos de intrusión en los datos de detección de intrusiones son generalmente categorías raras, especialmente cuando se detectan datos R2L y U2R, NBC tiene resultados relativamente ideales, por lo que en el siguiente paso del trabajo veremos si Puede combinar las ventajas de los dos modelos de clasificación de NBC y K-NBC, y utilizar la teoría de incertidumbre simétrica para eliminar atributos redundantes en los atributos relacionados con la clase de los datos de detección, mejorando aún más la eficiencia de la detección de intrusiones.

t>