Algoritmo a priori
El algoritmo a priori de este artículo se basa en análisis de correlación de conjuntos frecuentes. Su objetivo principal es encontrar reglas de asociación sólidas.
Para comprender conjuntos frecuentes y reglas de asociación sólidas, primero debemos introducir varios conceptos importantes con la ayuda de los siguientes escenarios.
La siguiente tabla muestra algunos registros de compras:
Los registros de compras están organizados en la siguiente tabla, donde los números en las columnas horizontal y vertical representan el número de transacciones en las que dos artículos fueron comprados al mismo tiempo. Por ejemplo, el número de transacciones para comprar naranjas es 4, mientras que el número de transacciones para comprar naranjas y Coca-Cola es 2.
La credibilidad indica la credibilidad de la regla.
Supongamos que el conjunto de condiciones de la condición es A y el conjunto de resultados es B. La confianza se calcula como la probabilidad de estar tanto en A como en B. En otras palabras, Confianza(A-gt;B)=P(B|A). Por ejemplo, calcule la confianza de "Coca-Cola si es naranja". Dado que sólo 2 de las 4 transacciones que contienen naranja contienen cola, el nivel de confianza es 0,5.
Soporte, calcula la probabilidad de que todos los conjuntos de transacciones contengan tanto A como B.
Por ejemplo, de 5 registros, 2 contienen tanto naranja como cola. El soporte para esta regla es 2/5=0,4. Ahora bien, esta regla se puede expresar como: Si un cliente compra una bebida de naranja, entonces tiene 50 posibilidades de comprar una Coca-Cola, y en el caso (es decir, si compra una bebida de naranja, entonces El La probabilidad de volver a comprar Coca-Cola es 40.
El conjunto de elementos cuyo soporte es mayor que el soporte mínimo predeterminado.
Reglas de asociación: Sea el conjunto de elementos I={i1, i2, .... ...in}, y hay un conjunto de datos D, en el que cada registro T es un subconjunto de I. Entonces la regla de asociación tiene la forma A - A. Entonces la expresión de la regla de asociación es A-gt;B, donde A y B son ambos subconjuntos de I, y la intersección de A y B está vacía. El soporte de esta regla de asociación: soporte = P (A y B). Confianza de esta regla de asociación: Confianza = Apoyo (A y B)/Apoyo (A).
Regla de asociación fuerte: si el apoyo y la confianza de una regla de asociación son mayores que el apoyo y la confianza mínimos predefinidos, la llamamos regla de asociación fuerte.
El siguiente es un ejemplo para ilustrar el proceso del algoritmo:
Conjunto de elementos I={1, 2, 3, 4, 5};
Conjunto de transacciones T:
Establece soporte mínimo (minsup)=3/7 y confianza mínima (misconf)=5/7.
Supuesto: un conjunto de elementos con n constantes es un conjunto de elementos que contiene n elementos. Por ejemplo, un conjunto de elementos con 1 constante es un conjunto de elementos que contiene 1 elemento.
Entonces, aquí 1: los conjuntos de elementos constantes son. : {1}, {2}, {3}, {4}, {5}
El proceso de generar 2 conjuntos de elementos de frecuencia es el siguiente:
Primero, enumeramos todos posibles conjuntos de elementos de 2 frecuencias de la siguiente manera:
{1, 2}, {1, 3}, {1, 4}, {1, 5}
{2, 3} , {2, 4}, {2, 5}
{3, 4}, {3, 5}
{4, 5}
Calcular su soporte y descubre que solo {1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4}, {2, 5} el soporte cumple con los requisitos, por lo que el 2 -Se encuentra el conjunto de elementos de frecuencia:
{1, 2}, {1, 3}, {1, 4}, {2, 3}, {2, 4} p>
Genere un conjunto de elementos de 3 frecuencias:
Para el conjunto de elementos de 2 frecuencias existente, tome la unión de los dos conjuntos de elementos y asegúrese de que el tercer elemento dicotómico también esté en el conjunto de elementos de 2 frecuencias, calcule el soporte de todos 3 conjuntos de elementos obtenidos y eliminar elementos que no cumplan con el soporte mínimo.
Por ejemplo,
El conjunto de conexiones compuesto por {1, 2}, {1, 3} es {1, 2, 3}; { El conjunto de conexiones compuesto por 1, 2} y {1, 4} es {1, 2, 4};
El conjunto de conexiones compuesto por {1, 3} y {1, 4} es { 1, 3, 4};
El conjunto de conexiones de {2, 3}, {2, 4} da como resultado {2, 3, 4};
Pero porque {1 , 3, 4 El subconjunto {3, 4} de } no está en el conjunto de elementos de 2 frecuencias, por lo que es necesario eliminar {1, 3, 4}. {2, 3, 4} también se eliminan.
Luego calcula el soporte de {1, 2, 3} y {1, 2, 4} nuevamente, y encuentra que el soporte de {1, 2, 3} es 3/7, mientras que {1 , 2 El soporte de , 4} es 2/7, por lo que es necesario eliminar {1, 2, 4}. De esta forma, se obtienen 3 conjuntos de elementos frecuentes: {1, 2, 3}.
Repita los pasos anteriores y continúe buscando n conjuntos de elementos frecuentes hasta que no se encuentren conjuntos de elementos frecuentes más grandes. En este punto, finaliza el frecuente proceso de generación de conjuntos de elementos.
A continuación solo se explica el proceso de generación de reglas de asociación para tres conjuntos de elementos frecuentes, es decir, tomando el conjunto {1, 2, 3} como ejemplo:
Revise las reglas de asociación del conjunto de cosas Sr. 1- elemento de secuencia:
(1, 2) - >3, confianza = 3/4 (**** aparecen 4 registros de (1, 2), 3 de que contienen 3, entonces 3/4);
(1, 3) - gt 2, confianza = 3/5;
(2, 3) - gt; grado de confianza = 3/3;
El nivel de confianza del segundo ítem es lt; el cual no alcanza el nivel mínimo de confianza, por lo que se elimina. Por lo tanto, para la generación de conjuntos de elementos de 3 frecuencias, las reglas de asociación fuertes son (1,2)-gt;3 y (2,3)-gt;1.
Esto significa que si ocurren 1 y 2, entonces es muy probable que ocurra 3; si ocurren 2 y 3, entonces es muy probable que ocurra 1.
blogs.com/junyuhuang/p/5572364.html