Matriz de inventario

En el artículo "Comprensión de la validación cruzada", hablamos sobre el uso de AUC para comparar la calidad de diferentes modelos, entonces, ¿qué es AUC? ¿Cómo mide la calidad de un modelo? Además de las AUC, ¿existen otros métodos de evaluación? En este artículo, discutiremos estos temas.

Para comprender las AUC, debemos comenzar con otro concepto: la matriz de confusión. La matriz de confusión es una matriz cuadrada bidimensional, que se utiliza principalmente para evaluar la calidad de los problemas de clasificación binaria (como predecir si tiene una enfermedad cardíaca, el aumento o la caída de las acciones, etc.). . ¿Qué debo hacer? De hecho, los problemas de clasificación múltiple aún se pueden convertir en problemas de clasificación doble para su procesamiento. La siguiente figura es una matriz de confusión utilizada para determinar si usted tiene una enfermedad cardíaca:

Mirando la matriz de confusión verticalmente, refleja la cantidad de personas que están enfermas y no enfermas. En la figura anterior, el número de personas que realmente padecen una enfermedad cardíaca es verdadero positivo + falso negativo, y el número de personas que no padecen una enfermedad cardíaca es falso positivo + verdadero negativo. De manera similar, mirando la matriz de confusión horizontalmente, muestra que el número de personas con enfermedades cardíacas predicho por el modelo es verdadero positivo + falso positivo, mientras que el número previsto de personas sin enfermedades cardíacas es falso negativo + verdadero negativo.

Mirando las dos direcciones juntas, lo llamamos verdadero y lo llamamos verdadero negativo. Estas dos regiones son las partes correctas de las predicciones del modelo. También hay dos tipos de errores de predicción del modelo. Un falso positivo significa que se predice que una persona se enfermará, pero en realidad no se enferma. Los falsos negativos significan que se predijo que las personas estarían enfermas, pero en realidad se enfermaron.

Hay muchos conceptos, pero no son difíciles de recordar. Como puede ver, todos estos términos se nombran en torno a predicciones: las predicciones de enfermedad se denominan "verdaderos/falsos positivos" y las predicciones de no estar enfermo se denominan "verdaderos/falsos negativos".

En la imagen de arriba, las predicciones correctas del modelo están rellenas en verde, y la relación también se llama precisión:

La precisión simple no es suficiente para evaluar la calidad del modelo. Por ejemplo, en la siguiente situación, aunque la tasa de precisión puede alcanzar el 80%, en la población enferma real, la tasa de éxito de la predicción del modelo es solo del 50%, lo que obviamente no es un buen modelo.

Por lo tanto, necesitamos introducir más indicadores. La sensibilidad (o recuerdo) representa la probabilidad de predecir con éxito la enfermedad en pacientes reales. La palabra sensibilidad también significa "alergia", que corresponde a la enfermedad. es más fácil de recordar:

Dado que existen indicadores para medir la enfermedad (muestras positivas), debe haber indicadores para medir la no enfermedad (muestras negativas). La especificidad se utiliza para expresar la probabilidad de éxito en predecir la ausencia de enfermedad en personas que en realidad no están enfermas, es decir,

La palabra especificidad significa "inmunidad" y puede asociarse con la ausencia de enfermedad, por lo que es fácil de recordar.

La aparición de estos dos indicadores puede ayudarle mejor a comparar las diferencias entre modelos y elegir entre ellos. Por ejemplo, cuando la precisión de dos modelos es similar, si presta más atención al efecto de predecir la enfermedad, debe elegir el que tenga un valor de sensibilidad más alto; por el contrario, si presta más atención al efecto de predecir, no la obtendrá; enfermo, debes elegir el que tenga mayor especificidad.

Además, graficar estos indicadores puede proporcionar resultados de evaluación más intuitivos, y la curva ROC (característica operativa del receptor) es uno de ellos.

Sabemos que el resultado de un modelo de clasificación (como la "regresión logística") es la probabilidad de ser mayor que 0 y menor que 1. En este momento todavía necesitamos un umbral para definir si estamos enfermos. Por lo general, establecemos el umbral en 0,5, de modo que cuando el resultado sea mayor que 0,5, se nos puede considerar enfermos; de lo contrario, se nos puede considerar no enfermos.

El umbral puede tomar cualquier valor entre 0 y 1. Para cada umbral, existe una matriz de confusión correspondiente. Con la matriz de confusión podemos encontrar un par de sensibilidad y especificidad. A través de estos dos números, podemos dibujar un punto en un sistema de coordenadas con especificidad 1 como abscisa y sensibilidad como ordenada, y conectar los puntos generados por todos los umbrales posibles.

Veamos un ejemplo concreto. Supongamos que hacemos un estudio en ratas y esperamos predecir su probabilidad de desarrollar enfermedades cardíacas en función de su peso. Utilizamos el algoritmo de regresión logística para modelar. El siguiente gráfico muestra los resultados previstos. Hay 10 puntos de muestra de ratón en la figura, donde los puntos rojos representan ratones sanos reales y los puntos azules representan ratones enfermos reales. Los puntos se ajustan mediante una curva de regresión logística. También hay una línea recta con P = 0,5 en la figura, lo que indica que el umbral es 0,5. Se puede ver que se predice que 5 ratones por encima de P=0,5 estarán enfermos, mientras que se predice que los otros 5 ratones estarán sanos, con una precisión del 80%:

Dibujamos en base a los datos anteriores A Curva ROC.

Primero, el umbral es 1, lo que predice que no todos los ratones están enfermos. Según el estado real de la muestra, se puede obtener la siguiente matriz de confusión.

Basándonos en la matriz de confusión anterior, podemos calcular un conjunto de valores de sensibilidad y especificidad. Luego ajustamos continuamente el umbral para obtener todos los pares de sensibilidad y especificidad. Debido a que tenemos relativamente pocos puntos de muestra aquí, podemos muestrear el umbral en función de los puntos de muestra y aún usar líneas horizontales para representar el umbral. Entonces, la situación de muestreo para todos los umbrales es la siguiente:

Enumeramos todas las matrices de confusión correspondientes a estos umbrales:

Luego, calculamos la sensibilidad y la especificidad 1 correspondientes a estas matrices de confusión. :

Según esta tabla, la especificidad 1 se toma como eje horizontal y la sensibilidad como eje vertical. Generalmente, al dibujar una curva ROC, registraremos el eje de coordenadas correspondiente a la especificidad 1 como FPR (tasa de falsos positivos) y el eje de coordenadas correspondiente a la sensibilidad como TPR (tasa de verdaderos positivos), de la siguiente manera:

La curva ROC tiene las siguientes características:

Según la primera característica de la curva ROC: "Cuanto más cerca esté la curva de la esquina superior izquierda, mejor será el efecto del modelo", lo que significa que un mejor modelo tiene un área mayor bajo la curva. Al área bajo la curva ROC la llamamos AUC (área bajo la curva). Con este concepto, la calidad del modelo se puede medir con un solo valor numérico. El AUC del modelo de ejemplo anterior es el siguiente:

Generalmente, utilizamos AUC para evaluar el modelo. Dado que es "normal", debe haber excepciones: cuando la prevalencia (o proporción de muestras positivas) es pequeña, el Verdadero Negativo será grande y este valor afectará el FPR, haciéndolo más pequeño. Para evitar este efecto, podemos reemplazar FPR con otra métrica: la precisión.

El significado de precisión es la proporción de muestras que se predice que estarán enfermas y las que realmente están enfermas. De esta manera, combinar precisión y sensibilidad nos hará prestar más atención al efecto de predicción de la enfermedad ( muestras positivas), y en el aprendizaje automático Otro indicador de rendimiento: la puntuación F1 se encarga de esto.

En la fórmula anterior, recuperación es igual a sensibilidad. Al igual que las AUC, los dos modelos se comparan entre sí. Cuanto mayor sea la puntuación F1, mejor será el efecto de predicción y la puntuación F1 puede medir mejor el efecto de predicción de muestras positivas.

Este artículo utiliza un ejemplo médico (si usted tiene una enfermedad cardíaca) para explicar qué son una matriz de confusión, una curva ROC, un AUC y una puntuación F1. Entre ellos, también aprendimos cómo dibujar juntos la curva ROC. Finalmente, también hablamos sobre las clasificaciones AUC y F1 y las sutiles diferencias entre ellas.

Cabe señalar que la evaluación de dos categorías no se limita a la clasificación de afecciones enfermas y no enfermas. Teniendo en cuenta la generalidad, puede reemplazar completamente la enfermedad cardíaca en este artículo con muestras positivas y reemplazar las enfermedades no cardíacas con muestras negativas.