¿Qué es Z-score? ¿Cuáles son sus escenarios de uso?
Puntuación Z (puntuación z, puntuación z, puntuación estándar)
La puntuación Z (puntuación z, valores z, puntuación normal) también se denomina puntuación estándar ( puntuación estándar, variable estandarizada), es un proceso en el que la diferencia entre el valor medido y la media se divide por la desviación estándar. La normalización de la puntuación Z es un método común de procesamiento de datos. Puede convertir datos de diferentes magnitudes en una puntuación Z unificada para comparar.
La fórmula se expresa como:
z=(x-μ)/σ
x es un valor medido, μ es el promedio y σ es la desviación estándar.
El valor Z representa la distancia entre el valor medido y la media general, y se calcula en unidades de desviación estándar.
Un valor medido que sea mayor que el promedio obtendrá un valor Z positivo, y un valor medido que sea menor que el promedio obtendrá un valor Z negativo.
En una frase:
La puntuación Z convierte dos o más conjuntos de datos en valores de puntuación Z sin unidades a través de (x-μ)/σ, unificando el estándar de datos. comparabilidad y debilitada interpretabilidad de los datos.
El método de procesamiento de puntuación Z se encuentra en la etapa de preparación de datos de todo el marco. Es decir, es un paso importante en la etapa de preprocesamiento de datos.
En el análisis y la minería de datos, muchos métodos requieren que las muestras cumplan con ciertos estándares. Si las muchas variables independientes que deben analizarse no son de la misma magnitud, causarán dificultades en el trabajo de análisis e incluso afectarán. la precisión del modelado posterior.
Por ejemplo, supongamos que queremos comparar los puntajes de los exámenes de A y B. El examen de A tiene un puntaje total de 100 puntos (aprobando 60 puntos) y el examen de B tiene un puntaje total de 700 puntos. (pasando 420 puntos). Evidentemente, los 70 puntos obtenidos por A y los 70 puntos obtenidos por B representan significados completamente diferentes. Pero en términos de valores numéricos, tanto A como B usan el número 70 para representar sus respectivos resultados en la tabla de datos.
Entonces, ¿cómo podemos utilizar un estándar igual para comparar los resultados de A y B? Z-Score puede resolver este problema.
La siguiente figura describe la definición de Z-Score y sus diversas características.
Como se muestra en la figura anterior, el objetivo principal de la puntuación Z es transformar uniformemente datos de diferentes magnitudes en la misma magnitud y medirlos uniformemente con el valor de puntuación Z calculado para garantizar la coherencia entre Comparabilidad de datos. El valor Z nos dice dónde están todos los datos en relación con la media general. Cuanto mayor o menor sea la puntuación Z, menos probable es que el resultado se produzca por casualidad y más probable es que el resultado sea significativo.
Antes de que el puntaje Z normalice los datos, necesitamos obtener la siguiente información:
1) La media (μ) de los datos generales
2) Los datos generales Desviación estándar (σ)
3) Valor de observación individual (x)
Sustituyendo los tres valores anteriores en la fórmula de puntuación Z, es decir: p>
Podemos convertir diferentes datos a la misma magnitud y lograr la estandarización.
Volviendo al ejemplo anterior, supongamos: el puntaje promedio de la clase A es 80, la desviación estándar es 10, y A obtuvo 90 puntos en la prueba el puntaje promedio de la clase B es 400, el estándar; La desviación es 100 y B obtuvo 90 puntos en la prueba. Obtuvo 600 puntos.
A través de la fórmula anterior, podemos calcular que el puntaje Z de A es 1 ((90-80)/10) y el puntaje Z de B es 2 ((600-400)/100). Por tanto, la puntuación de B es superior.
Por el contrario, si A obtiene 60 puntos y B obtiene 300 puntos, el Z-Score de A es -2 y el Z-Score de B es -1. Por lo tanto la nota de A es peor.
Por lo tanto, se puede ver que Z-score puede convertir datos de manera efectiva en un estándar unificado, pero es necesario prestarle atención y compararlo.
El puntaje Z en sí no tiene ningún significado práctico y su significado práctico debe realizarse en comparación, lo cual también es una de las deficiencias del puntaje Z.
La mayor ventaja del puntaje Z es que es simple y fácil de calcular. En muchas herramientas, como R, no es necesario cargar paquetes, se puede calcular y comparar. la fórmula matemática más simple. Además, el puntaje Z se puede aplicar a datos numéricos y no se ve afectado por la magnitud de los datos, porque su función es eliminar los inconvenientes causados por la magnitud en el análisis.
Pero las aplicaciones de puntuación Z también tienen riesgos. En primer lugar, estimar el puntaje Z requiere la media y la varianza generales, pero este valor es difícil de obtener en análisis y minería reales. En la mayoría de los casos, se utilizan la media y la desviación estándar de la muestra. En segundo lugar, el puntaje Z tiene ciertos requisitos para la distribución de datos, y la distribución normal es la más propicia para el cálculo del puntaje Z. Finalmente, la puntuación Z elimina el significado real de los datos. La puntuación Z de A y la puntuación Z de B ya no están relacionadas con sus puntuaciones respectivas. Por lo tanto, los resultados de la puntuación Z solo se pueden utilizar para comparar los resultados entre datos. El verdadero significado de los datos también debe restaurarse a su valor original.
Supongamos que la altura promedio de las integrantes de la selección nacional de voleibol femenino es de 1,94 metros y la desviación estándar es de 0,2 (la desviación estándar representa el grado de diferencia en los valores de altura de diferentes jugadoras, también conocida como el grado de variación). Un día, una mujer de 1,2 metros de altura solicitó unirse al equipo nacional. ¿Cómo medimos la diferencia de altura entre esta mujer y los miembros del equipo nacional de voleibol femenino?
Primero, ¿a qué distancia está la altura de esta mujer de la altura promedio del equipo de voleibol femenino?
Valor de medición real - valor promedio = 1,2-1,94 = -0,74 (metro)
En segundo lugar, la diferencia anterior (-0,74 metro) es un valor numérico. Esta diferencia entre los nacionales. equipo ¿Cuál es el concepto y se puede cuantificar? Sabemos que el grado de diferencia en la altura del equipo nacional de voleibol femenino es la desviación estándar. Entonces, si calculamos cuántas veces la diferencia anterior es la desviación estándar, podemos usarla para expresar el grado de variación de esta diferencia.
Valor de medición real: media/desviación estándar=-0,74/0,2=-3,7 (veces)
El -3,7 aquí es el valor Z. De manera similar, si una mujer de 2,6 metros de altura solicita unirse al equipo nacional de voleibol femenino, su puntuación Z de altura es 3,3.
¿Por qué la mayoría de los indicadores requieren que sea el rango de valores Z normal? Esta es una pregunta puramente estadística. Solo recuerda:
El valor Z cae dentro del intervalo. La probabilidad del valor que medimos en la población total es 99,7 y la probabilidad de exceder este intervalo es 0,3.
Por tanto, en el ejemplo anterior, la probabilidad de que las dos mujeres con alturas de 1,2 metros y 2,6 metros aparezcan en la cola nacional es inferior a 0,3, y ninguna de ellas cumple los requisitos de altura. De hecho, el estándar del intervalo de valor Z de altura para el equipo nacional de voleibol femenino puede ser menor, como [-0,5, 0,5].