Evaluación de clasificación binaria, comenzando con matriz de confusión
En el artículo "Comprensión de la validación cruzada", hablamos sobre el uso de AUC para comparar el rendimiento de diferentes modelos. ¿Qué es la AUC? ¿Cómo mide la calidad de un modelo? ¿Existen otras herramientas de evaluación además de las AUC? En este artículo, exploramos estas preguntas.
Para comprender el AUC, debemos comenzar con otro concepto: la matriz de confusión, que es una matriz cuadrada bidimensional que se utiliza principalmente para evaluar problemas de clasificación binaria (por ejemplo: predecir si hay enfermedades cardíacas, aumento de acciones). y caída, etc. Sólo hay dos tipos de preguntas). ) es bueno o malo. Quizás se pregunte, ¿qué pasa con los problemas de clasificación múltiple? De hecho, los problemas de clases múltiples todavía se pueden convertir en problemas binarios. Aquí hay una matriz de confusión para determinar si tiene una enfermedad cardíaca:
Una mirada longitudinal a la matriz de confusión, que refleja la cantidad de personas en el mundo real que padecen y no la enfermedad en la imagen de arriba; , personas con La cantidad de personas con enfermedades cardíacas son verdaderos positivos y falsos negativos, y la cantidad de personas sin enfermedades cardíacas son falsos positivos y verdaderos negativos de manera similar, mirando horizontalmente la matriz de confusión, refleja el hecho de que la cantidad de personas; El número de personas que el modelo predice que tienen enfermedades cardíacas son verdaderos positivos y falsos positivos, mientras que el número de personas que no tienen enfermedades cardíacas son falsos negativos y verdaderos negativos.
Analizamos estas dos direcciones juntas, la cantidad de personas que se predice que tendrán enfermedades cardíacas y la cantidad de personas que realmente tienen enfermedades cardíacas, que llamamos verdaderos positivos (o "positivos"). Un falso positivo es cuando se predice que alguien tendrá la enfermedad pero en realidad no la tiene; un falso negativo es cuando se predice que alguien no tendrá la enfermedad pero en realidad la tiene.
Es un poco excesivo, pero no es difícil de recordar y, como puede ver, todos los términos se nombran en torno a predicciones: cuando se predice una enfermedad, se denomina "verdadero/falso positivo", o "verdadero/falso positivo". /falsos negativos" cuando se predice que la enfermedad no estará presente.
En la imagen de arriba, la proporción de predicciones correctas está marcada en verde y la proporción de predicciones correctas se llama precisión:
La precisión por sí sola no es suficiente para evaluar un modelo, p. En el siguiente escenario, el modelo predice que el 80% de las personas padecen la enfermedad, pero sólo el 50% la padece. Este no es un buen modelo.
Por eso necesitamos introducir más indicadores. La sensibilidad (o recuerdo) se refiere a la probabilidad de éxito en la predicción de una enfermedad en pacientes reales. La palabra sensibilidad también significa "alergia", que corresponde a la enfermedad, por lo que es fácil de recordar por asociación:
Dado que hay medidas de enfermedad (muestras positivas), también debe haber medidas de no enfermedades (muestras negativas). Esta es una buena manera de recordar:
Si hay medidas de enfermedad. (muestras positivas), entonces también debe haber medidas de no enfermedad (muestras negativas). La especificidad se refiere a la probabilidad de éxito en predecir una no enfermedad en personas que en realidad no tienen la enfermedad, es decir:
La palabra especificidad significa "inmunidad" y está relacionada con las no enfermedades, por lo que También es fácil de recordar.
Estas dos métricas le ayudan a comparar modelos y hacer concesiones entre ellos. Por ejemplo, cuando dos modelos tienen una precisión similar, si está más interesado en predecir la enfermedad, debe elegir el modelo con un valor de sensibilidad más alto; por el contrario, si está más interesado en predecir la ausencia de la enfermedad, debe elegir el modelo con; un valor de especificidad más alto.
Además, también podemos representar estos indicadores en gráficos para comprender los resultados de forma más intuitiva. La curva ROC (Receiver Operating Characteristic) es un método comúnmente utilizado.
Sabemos que el resultado de un modelo de clasificación (como la regresión logística) es que la probabilidad es mayor que 0 y menor que 1, por lo que necesitamos un umbral para definir si una persona está enferma. generalmente se establece en 0,5, por lo que cuando el resultado es mayor que Cuando el valor es 0,5, una persona está enferma y viceversa.
El umbral puede tomar cualquier valor entre 0 y 1. Para cada umbral, existe una matriz de confusión correspondiente. Con la matriz de confusión, podemos encontrar un par de sensibilidad y especificidad, a través de estos dos números. Podemos dibujar un punto en un sistema de coordenadas con especificidad 1 como abscisa y sensibilidad como ordenada, y conectar los puntos generados por todos los umbrales posibles para hacer una curva ROC.
Veamos un ejemplo específico. Supongamos que realizamos una investigación en ratas y queremos predecir la probabilidad de enfermedad cardíaca a través del peso de las ratas. Utilizamos el algoritmo de regresión logística para modelar. Como resultado, hay 10 puntos de muestra de ratas en la figura, entre los cuales los puntos rojos representan ratas sanas reales y los puntos azules representan ratas enfermas reales. Estos puntos están equipados con curvas de regresión logística y hay una P = 0,5 (. P=0,5), que es una curva de regresión logística. También hay una línea recta con P=0,5, que indica un valor crítico de 0,5. Se puede ver que se predice que las 5 ratas con P = 0,5 o superior estarán enfermas, mientras que se predice que las otras 5 ratas estarán sanas y la tasa de éxito de la predicción (tasa de precisión) es 80:
Aquí está nuestra curva ROC dibujada en base a los datos anteriores. Primero, establecemos el umbral en 1. En este momento, se predice que todos los ratones no estarán enfermos. Según el verdadero estado de la enfermedad de la muestra, podemos obtener la siguiente matriz de confusión
De acuerdo con lo anterior. matriz de confusión, podemos calcular un conjunto de valores de sensibilidad y especificidad. Luego continuamos ajustando el umbral para obtener todos los pares de sensibilidad y especificidad. Debido a que aquí tenemos relativamente pocos puntos de muestra, podemos dejar que el umbral se muestree de acuerdo con los puntos de muestra. La línea horizontal todavía se usa para representar el umbral. la situación de muestreo de todos los umbrales es la siguiente:
A continuación enumeramos las matrices de confusión correspondientes a todos estos umbrales:
Entonces. Calcule la sensibilidad y la especificidad 1 correspondientes a estas matrices de confusión:
De acuerdo con la tabla, dibuje la curva ROC con la especificidad 1 como eje horizontal y la sensibilidad como eje vertical. Generalmente, al dibujar la ROC. curva, 1-El eje de coordenadas correspondiente a la especificidad se escribe como FPR (tasa de falsos positivos)
La curva ROC tiene las siguientes características:
Según la primera característica de la Curva ROC: "Cuanto más cerca esté la curva de la esquina superior izquierda, mejor será el modelo", lo que significa que cuanto mayor sea el área bajo la curva, mejor será el modelo. El área bajo la curva ROC se llama AUC (área bajo la curva). ). Usando este concepto, podemos medir el desempeño del modelo con un valor, como se mencionó anteriormente. El AUC del modelo de ejemplo es el siguiente:
Normalmente, usamos AUC para evaluar el modelo, pero desde ). es "generalmente", debe haber otros valores que se puedan usar. Excepción: cuando la prevalencia (o proporción de muestras positivas) es muy pequeña, el Verdadero Negativo será muy grande y este valor afectará el FPR y hará. es más pequeña, es la proporción de muestras que se predice que están enfermas las que realmente están enfermas; por lo tanto, se combinan precisión y sensibilidad. Nos permite centrarnos más en el efecto de predecir la enfermedad (muestras positivas), que es lo que representa otro rendimiento. El indicador en el aprendizaje automático, la puntuación F1, se centra en
En la fórmula anterior, la tasa de recuperación es equivalente a la puntuación F1
En la fórmula anterior, la recuperación es equivalente a la sensibilidad. Al igual que AUC, los dos modelos se comparan entre sí. Cuanto mayor sea la puntuación F1, mejor será el efecto de predicción, y la puntuación F1 puede medir mejor el efecto de predicción de la muestra positiva.
p>En. En este artículo, hablaremos sobre qué son la matriz de confusión, la curva ROC, el AUC y la puntuación F1, y usaremos un ejemplo médico (¿tiene una enfermedad cardíaca) para comprender cómo se dibuja la curva ROC y, finalmente, hablaremos sobre el AUC y el AUC? También hablamos sobre AUC y F1 Score y las sutiles diferencias entre ellos.
Es importante tener en cuenta que la evaluación binaria no se limita a la enfermedad y la ausencia; en aras de la generalización, se puede reemplazar. enfermedad cardíaca con muestras positivas y ninguna enfermedad cardíaca con muestras negativas en este artículo