Tres algoritmos clásicos de minería de datos
Se puede decir que los algoritmos son el núcleo de muchas tecnologías, y lo mismo ocurre con la minería de datos. Hay muchos algoritmos en la minería de datos. Es la existencia de estos algoritmos lo que permite que nuestra minería de datos resuelva más problemas. Si dominamos estos algoritmos, podremos realizar con éxito el trabajo de minería de datos. En este artículo, presentaremos brevemente los algoritmos clásicos de minería de datos, con la esperanza de poder ayudarlo.
Algoritmo 1.KNN
El nombre completo del algoritmo KNN es clasificación de k-vecino más cercano, que es K vecino más cercano, o algoritmo KNN para abreviar. Este algoritmo de clasificación es teórico. Un método relativamente maduro y uno de los algoritmos de aprendizaje automático más simples. La idea de este método es: si una muestra es la k más similar en el espacio de características, es decir, la mayoría de las muestras más cercanas en el espacio de características pertenecen a una determinada categoría, entonces la muestra también pertenece a esta categoría. El algoritmo KNN se utiliza a menudo para la clasificación en la minería de datos y desempeña un papel vital.
2. Algoritmo Naive Bayes
Entre los muchos modelos de clasificación, los dos modelos de clasificación más utilizados son el modelo de árbol de decisión y el modelo Naive Bayes (Naive Bayesian Model, NBC). El modelo Naive Bayes se originó a partir de la teoría matemática clásica y tiene una base matemática sólida y una eficiencia de clasificación estable. Al mismo tiempo, el modelo NBC requiere pocos parámetros estimados, no es muy sensible a los datos faltantes y tiene un algoritmo relativamente simple. En teoría, el modelo NBC tiene la tasa de error más pequeña en comparación con otros métodos de clasificación. Pero este no es siempre el caso en la práctica, ya que el modelo NBC supone que los atributos son independientes entre sí. Esta suposición a menudo no es cierta en las aplicaciones prácticas, lo que tiene un cierto impacto en la clasificación correcta del modelo NBC. Cuando el número de atributos es relativamente grande o la correlación entre atributos es grande, la eficiencia de clasificación del modelo NBC no es tan buena como la del modelo de árbol de decisión. Cuando la correlación de atributos es pequeña, el modelo NBC funciona mejor. Este algoritmo tiene una alta tasa de uso en el trabajo de minería de datos. Un excelente minero de datos debe saber cómo utilizar este algoritmo.
3.Algoritmo CART
CART, que son Árboles de Clasificación y Regresión. Es nuestro árbol de clasificación y regresión común. Hay dos ideas clave bajo el árbol de clasificación. El primero trata sobre la idea de dividir recursivamente el espacio de la variable independiente; el segundo trata sobre la poda con datos de validación. Estas dos ideas también determinan el estado de este algoritmo.
En este artículo le presentamos el conocimiento relevante sobre el algoritmo KNN, el algoritmo Naive Bayes y el algoritmo CART. De hecho, estos tres algoritmos ocupan una posición alta en la minería de datos, así que si lo desea. Si participa en la industria de la minería de datos, no debe ignorar el aprendizaje de estos algoritmos.