¿Qué es la prueba de hipótesis?
Prueba de hipótesis
La prueba de hipótesis es un método estadístico matemático que infiere la población a partir de una muestra basándose en ciertos supuestos. El método específico es: hacer ciertas suposiciones sobre la población de acuerdo con las necesidades de la investigación del problema, registrarlas como H0, seleccionar la estadística apropiada, seleccionar esta estadística para establecer la hipótesis H0 y calcular la distribución a través de la medida; muestras El valor se prueba de acuerdo con el nivel de significancia predeterminado y se emite un juicio para rechazar o aceptar la hipótesis H0. Los métodos de prueba de hipótesis comúnmente utilizados incluyen la prueba u, la prueba t, la prueba χ2 (prueba de chi-cuadrado), la prueba F, la prueba de suma de rangos, etc.
Nombre chino
Prueba de hipótesis
Nombre extranjero
Prueba de hipótesis
Propuesto por
K. Pearson
Propuesto
Principios del siglo XX
Campos de aplicación
Estadística matemática, comunicaciones
Introducción
Prueba de hipótesis
Prueba de hipótesis, también conocida como prueba de hipótesis estadística (Nota: la prueba de significancia es solo un tipo de prueba de hipótesis estadística: la prueba de significancia es solo el método más comúnmente utilizado para La prueba de hipótesis 1), es una forma básica de inferencia estadística y una rama importante de la estadística matemática. Se utiliza para determinar si las diferencias entre muestras y muestras, y entre muestras y la población, se deben a errores de muestreo o a diferencias en las propiedades. / p>
El principio básico es hacer algunas suposiciones sobre las características de la población y luego hacer inferencias negando o aceptando las suposiciones a través de inferencias estadísticas de estudios de muestreo.
Idea básica
La idea básica de la prueba de hipótesis es la idea de contrafactuales de pequeña probabilidad. La idea de pequeña probabilidad significa que en una prueba, un evento de pequeña probabilidad (P <0,01 o P <0,05) básicamente no sucederá. La idea de contrafactual es presentar primero una hipótesis (hipótesis de prueba H0) y luego utilizar métodos estadísticos apropiados para juzgar la posibilidad de que la hipótesis sea cierta. Si la posibilidad es pequeña, la hipótesis no es verdadera. es alta, no se puede considerar que la hipótesis no sea cierta.
Prueba de hipótesis
Se debe probar si la hipótesis es correcta o no utilizando muestras extraídas de la población. Las teorías y métodos relacionados constituyen el contenido de la prueba de hipótesis. Supongamos que A es una proposición sobre la distribución de la población. Todas las distribuciones de población que hacen que la proposición A sean verdaderas forman un conjunto h0, lo que se denomina hipótesis nula (normalmente denominada hipótesis). Todas las distribuciones de población que hacen que la proposición A sea falsa forman otro conjunto h1, llamado hipótesis alternativa. Si h0 puede describirse mediante un número finito de parámetros reales, se llama hipótesis paramétrica; de lo contrario, se llama hipótesis no paramétrica (ver estadística no paramétrica). Si h0 (o h1) contiene solo una distribución, la hipótesis nula (o hipótesis alternativa) se denomina hipótesis simple; de lo contrario, se denomina hipótesis compuesta. Probar la hipótesis h0 es formular una regla de modo que cuando se obtiene una muestra, uno pueda decidir si aceptar (admitir que la proposición A es verdadera) o rechazar (negar que la proposición A es verdadera) con base en esta regla. De esta forma, el espacio compuesto por todas las muestras posibles (llamado espacio muestral) se divide en dos partes: HA y HR (el complemento de HA). Cuando la muestra x∈HA, se acepta la hipótesis h0; , se rechaza la hipótesis h0. La FC establecida a menudo se denomina región de rechazo de la prueba, mientras que HA se denomina región de aceptación. Por lo tanto, al seleccionar una prueba también se selecciona una región de rechazo, por lo que la prueba en sí suele ser equivalente a la región de rechazo HR.
Métodos básicos
¿Prueba de significancia? A veces, basándose en cierta teoría o experiencia, una determinada hipótesis h0 se considera cierta. Por ejemplo, suele ser razonable suponer que la altura de un determinado grupo de personas sigue una distribución normal. Después de recopilar una cierta cantidad de datos, se puede evaluar la desviación entre los datos reales y la hipótesis teórica h0. Si la desviación alcanza un nivel "significativo", h0 será rechazada. Esta prueba se denomina prueba de significancia. El grado de desviación que alcanza significancia generalmente se especifica como un pequeño número positivo α (como 0,05, 0,01), de modo que cuando h0 es correcto, la probabilidad de rechazo no excede α, lo que se denomina nivel de significancia. La característica de este tipo de problema de prueba de hipótesis es que no considera hipótesis alternativas, sino que solo considera el grado de ajuste entre los datos experimentales y la teoría, por lo que en este momento también se le llama prueba de bondad de ajuste. La prueba de bondad de ajuste es un tipo importante de prueba de significancia.
Prueba de Hipótesis
La prueba X propuesta por K. Pearson en 1900 es una importante prueba de bondad de ajuste. Supongamos que la hipótesis nula h0 es "la distribución de la población es igual a alguna función de distribución conocida F(x)". Divida (-∞, ∞) en un número de intervalos por pares I1, I2,...,Ik que no tienen puntos *** comunes. Para cualquiera de los intervalos, representados por vj, muestras X1, X2,... de tamaño n., el número de muestras en Pearson demostró que si para j = 1, 2,...,k, cuando n → ∞, la distribución límite de X es la distribución de X con grados de libertad k-1. Por lo tanto, cuando el tamaño de la muestra n es bastante grande, el cuartil α superior de la distribución de X (ver distribución de probabilidad) X(k-1) se puede encontrar en la tabla de distribución de X. Esto conduce al dominio de eliminación con un nivel de prueba de α: {ⅩⅩ≥ⅩⅩα(k-1)}. Si la hipótesis nula h?0 es: la población obedece a la familia de distribución {Fθ, θ∈ 嘷}, donde θ es un parámetro desconocido y 嘷 es el conjunto de todos los valores posibles de θ (llamado espacio de parámetros), siempre y cuando como cuando se calcula la frecuencia teórica vj. Al reemplazar los parámetros desconocidos incluidos θ con estimaciones puntuales apropiadas, se pueden calcular las estadísticas y se puede obtener una región de rechazo similar. Sin embargo, los grados de libertad de la distribución límite en este caso son k-Л-1, donde Л es el número de parámetros independientes en θ. La prueba de Kolmogorov (ver estadística no paramétrica) también es una prueba importante de bondad de ajuste.
¿La teoría de Neyman-Pearson? J. Neyman, en colaboración con E. S. Pearson, propuso una teoría sistemática de prueba de hipótesis en 1928. Creen que se pueden cometer dos errores al probar la hipótesis h0:
El primer error es
La verdad de la prueba de hipótesis
es que h0 es verdadera ( Es decir, θ∈ 嘷0), pero el juicio es que h0 no está establecido y se ha cometido el error de "confundir falsedad con verdad". El segundo tipo de error es que h0 no es realmente cierto (es decir, θ∈嘷1), pero se considera verdadero, cometiendo el error de "confundir la falsedad con la verdad" (ver tabla). Aquí, 嘷0 y 嘷1 son los conjuntos de θ que hacen que la hipótesis h0 sea verdadera o inválida respectivamente. Obviamente, 嘷 = 嘷0 + 嘷1. Cuando θ∈ 嘷0 y la muestra X (es decir, el vector compuesto por X1,
Prueba de hipótesis
Cuando θ∈ 嘷1, la muestra X∈HA, su probabilidad Pθ (X∈ HA) es la probabilidad de cometer un error de Tipo I α. La probabilidad de X∈HA es la probabilidad de cometer un error de tipo II β. Generalmente, no queremos rechazar h0 fácilmente. Por ejemplo, los productos de la fábrica generalmente están calificados y no queremos considerarlos fácilmente como productos no calificados durante la inspección por muestreo en la fábrica.
Prueba de hipótesis
Por lo tanto, bajo la condición de que la probabilidad de cometer un error de tipo I no exceda un cierto valor especificado α (llamado nivel de prueba), nos esforzamos por hacer una Error tipo II La probabilidad de error es lo más pequeña posible. En una prueba, cuanto menor sea la probabilidad de cometer un error de tipo II, mejor. Para describir qué tan buena es una prueba, la función Pθ(X∈HR) de θ se llama función de potencia de la prueba. Por ejemplo, el método de inspección utilizado en el ejemplo de inspección de productos anterior puede ser: cuando el número de productos no calificados en la muestra excede un cierto límite, el lote de productos se considera no calificado; de lo contrario, se considera calificado. La función de potencia de esta prueba tiene forma gráfica, lo que permite elegir p0, p1, α y β como se desee. El gráfico muestra claramente las probabilidades de ambos errores.
¿Cuáles son los criterios de excelencia? Con base en la teoría de Neyman-Pearson y la teoría de la decisión estadística, se pueden proponer algunos criterios para comparar varios métodos de prueba propuestos para probar la misma hipótesis. Entre los criterios más importantes se encuentran:
Prueba de hipótesis
¿Criterio de potencia máxima uniforme (UMP)? Esperamos probar h0:θ∈ 嘷0 y h1:θ∈ 嘷1; cuando se da el nivel de prueba α, si existe la mejor prueba HR entre todas las pruebas disponibles que satisfaga el nivel de prueba α, es decir, si la hay. En tal prueba, la FC se denomina prueba de potencia máxima constante bajo el nivel de prueba α, o prueba UMP para abreviar.
Neyman y Pearson propusieron el famoso teorema de Neyman-Pearson en 1933. Este es un resultado constructivo de la prueba UMP que busca hipótesis simples, es decir,
Prueba de hipótesis
La prueba de razón de verosimilitud en este momento es una prueba UMP. La prueba UMP también es adecuada para algunas hipótesis compuestas, pero no en todos los casos. Por tanto, es necesario encontrar una prueba con potencia máxima, o establecer algún otro criterio de bueno o malo, y hacer algunas restricciones a la prueba.
¿Estándares imparciales? Se requiere que la probabilidad de que la prueba emita un juicio correcto cuando se establece la hipótesis alternativa h1 no sea menor que el nivel de prueba α, es decir, la probabilidad de rechazar h0 cuando h0 no se establece no sea menor que la probabilidad de rechazar h0 cuando se establece h0. Esta propiedad se llama insesgada y tiene esta La prueba de esta propiedad se llama prueba insesgada. Obviamente, si hay una prueba de potencia máxima consistente entre las pruebas imparciales, se llama prueba insesgada de potencia máxima consistente (prueba UMPU para abreviar). Es posible que aún exista una verificación de UMPU cuando no exista una verificación de UMP. Por ejemplo, cuando se desconoce la varianza en el grupo normal, la prueba t que prueba la media μ = μ0 es una prueba UMPU, no una prueba UMP.
Prueba de hipótesis
Dado que la prueba de hipótesis en la teoría de la decisión estadística es un problema estadístico especial de toma de decisiones, existen dos efectos de error que pueden representarse mediante pérdidas especiales. Por ejemplo, elija una función de pérdida especial para que la pérdida por un juicio correcto sea 0 y la pérdida por un juicio incorrecto sea 1. Se puede simplificar a la probabilidad α de cometer un error de tipo I y a la probabilidad β de cometer un error de tipo II. Esto es consistente con la descripción de la función de potencia Pθ(X∈HR).
Prueba de hipótesis
Así, desde la teoría de la decisión estadística se introdujeron conceptos como tolerancia, homocedasticidad, toma de decisiones bayesiana y valor mínimo, y se obtuvieron pruebas de tolerancia, homocedasticidad, prueba bayesiana y prueba de valor mínimo. Bajo las limitaciones de las pruebas de homocedasticidad, se puede establecer el concepto de prueba de homocedasticidad de potencia máxima consistente. Estos criterios, a su vez, pueden utilizarse como criterios para una prueba de hipótesis excelente, ampliando así la connotación de prueba de hipótesis.
Prueba de hipótesis
Es muy difícil encontrar la prueba óptima bajo un determinado criterio, sin mencionar que a veces dicha prueba óptima no existe. Por lo tanto, se han propuesto varios métodos de razonamiento basados en la intuición, el más importante de los cuales es el método de la razón de verosimilitud.
Prueba de razón de verosimilitud
Prueba de hipótesis
Utilizando un principio similar a la estimación de máxima verosimilitud (ver estimación puntual), se puede obtener la prueba de razón de verosimilitud. Supongamos que la densidad de distribución (es decir, la función de probabilidad) de la muestra Obviamente, 0 ≤ (尣) ≤ 1, rechace h0 cuando (尣) sea demasiado pequeño; de lo contrario, acepte h0 y su valor crítico λ0 esté determinado por la distribución del nivel de prueba α y (尣) cuando se establezca h0. es. Sin embargo, en general, no es fácil encontrar la distribución exacta de (尣). En 1938, S. S. Wilkes demostró que -2ln(壣) se distribuye asintóticamente en una amplia gama de condiciones, lo que brinda la posibilidad de realizar pruebas de razones de probabilidad de muestras grandes.
Las pruebas importantes basadas en el método de razón de verosimilitud son:
Prueba de hipótesis
¿Prueba U? Si la población sigue una distribución normal N(μ,σ), donde σ se conoce y X=(X1,X2,...,Xn) es una muestra aleatoria simple extraída de la población, denotada como , entonces sigue la distribución estándar Distribución normal N (0,1), por lo que la siguiente hipótesis sobre μ puede considerarse como una prueba de μ, donde μ0 es una constante dada, α es el nivel de la prueba y uα es el α superior de la distribución normal estándar. magnitud. La prueba anterior se llama prueba U.
¿No hay inspección? Si la cantidad total sigue una distribución normal N(μ, σ), pero σ se desconoce, entonces t = tiene una distribución t con n-1 grados de libertad. La siguiente prueba se puede realizar para μ con nivel α, donde tα es. n-1 grados de libertad. El cuantil α superior de la distribución t. Estas pruebas se llaman pruebas t.
Prueba de hipótesis
¿Prueba F? Si X=(X1, una muestra aleatoria simple extraída de 娤',,,,,), entonces, obedeciendo la distribución F con grados de libertad n1-1 y n2-1, se cumple la hipótesis de probar y comparar σ֭ y σ''娤''' en el nivel α es el siguiente. Prueba donde Fα es el cuartil α superior de la distribución F con grados de libertad (n1-1, n2-1).
Pruebas de hipótesis
Estas pruebas se denominan pruebas F y se utilizan ampliamente en el análisis de varianza. [3]?
Bibliografía E.L. Lehmann, Testing Statistical Hypothesis, John Wiley & Sons, New
Pasos básicos
1.
H0: La diferencia entre la muestra y la población o entre la muestra y la muestra es causada por un error de muestreo;
H1: Existen diferencias esenciales entre la muestra y la población o entre la muestra y la muestra;
El nivel de prueba está preestablecido en 0,05; cuando la hipótesis de prueba es verdadera pero se rechaza incorrectamente, la probabilidad se registra como α, generalmente α=0,05 o α=0,01; Seleccione un método estadístico, de acuerdo con la La fórmula calcula la cantidad estadística del valor de observación de la muestra, como el valor X2, el valor t, etc. Según el tipo y las características de los datos, se pueden seleccionar respectivamente la prueba Z, la prueba T, la prueba de suma de rangos, la prueba de chi-cuadrado, etc.
3. Determine la probabilidad P de la hipótesis de prueba en función del tamaño del estadístico y su distribución y determine el resultado. Si P>α, la conclusión es que el nivel de α no es significativo y H0 no se rechaza, es decir, es probable que la diferencia sea causada por un error de muestreo, lo cual es estadísticamente insostenible si P≤α, la conclusión es que; el nivel α es significativo, se rechaza H0 y se acepta H1, se considera que es poco probable que la diferencia sea causada únicamente por un error de muestreo y es probable que sea el resultado de diferentes factores experimentales, por lo que es estadísticamente válida. El tamaño del valor P se puede determinar consultando la tabla de valores límite correspondiente y determinando el resultado. [1-2]?
Práctica docente:
1. Según la situación real, proponer la hipótesis original y la hipótesis alternativa;
2. las características de la hipótesis, seleccione la estadística de prueba adecuada;
3. Calcule el valor observado (obs) de la estadística de prueba en función de los resultados de la observación de la muestra;
4. basado en la estadística correspondiente El nivel de significancia y encuentre la tabla de distribución estadística de la estadística correspondiente. Seleccione el nivel de significancia permitido y encuentre el valor crítico correspondiente (ctrit) de acuerdo con la tabla de distribución estadística de la estadística correspondiente.
5. Determine la elección de la hipótesis nula en función de la posición del valor observado; del estadístico de prueba.
Importancia
La prueba de hipótesis es una parte importante de la inferencia muestral. Consiste en formular una hipótesis basada en la información original sobre si un indicador general es igual a un determinado valor y si la variable aleatoria obedece a una determinada distribución de probabilidad, y luego utiliza la información de la muestra para calcular las estadísticas de prueba relevantes utilizando ciertos métodos estadísticos. sobre ciertos principios de probabilidad, un método de prueba para determinar si existe un pequeño riesgo de una diferencia significativa entre el valor estimado y el valor de la población (o la distribución estimada y la distribución real), y si se acepta la hipótesis nula. Elija un método de prueba para la hipótesis nula.
Cuando se utilizan indicadores de muestra para estimar indicadores generales, algunas conclusiones son completamente confiables, mientras que otras solo tienen distintos grados de confiabilidad y necesitan más pruebas y confirmación. Mediante pruebas, se juzga si existe una diferencia entre el índice de la muestra y el índice general hipotético, y si se acepta la hipótesis nula. Debe quedar claro aquí que el propósito de la prueba no es dudar si el indicador de la muestra en sí se calcula correctamente, sino analizar si existe una diferencia significativa entre el indicador de la muestra y el indicador general. En este sentido, la prueba de hipótesis también se denomina prueba de significancia.
Para realizar pruebas de hipótesis, primero se debe plantear la hipótesis. A continuación se muestran ejemplos.
Por ejemplo, supongamos que una determinada fábrica fabrica un determinado producto obedezca una distribución normal con media y varianza. Según datos anteriores, se sabe que la media es 75 y la varianza es 100. Si después de la innovación tecnológica se mejora el método de fabricación y el valor medio es mayor que 75, la varianza no cambia, pero aún es posible que el valor medio no sea mayor que 75. Explíquelo en forma de hipótesis estadística.
Con base en la situación anterior, pueden existir dos hipótesis: (1) la media no excede 75; (2) la media es mayor que 75, es decir, si se utiliza (1) como la hipótesis nula, es decir, si la otra hipótesis es una hipótesis convencional y una hipótesis complementaria relativa a la hipótesis nula, entonces es una hipótesis alternativa, por lo que se denomina hipótesis alternativa o hipótesis opuesta, registrada como H1.
No es necesario establecer supuestos estadísticos.
Tenga en cuenta también que no importa cuál es la hipótesis nula y cuál es la hipótesis alternativa. Nuestra preocupación es explorar la cuestión de qué hipótesis se acepta. Los supuestos aceptados son la base del razonamiento. En problemas prácticos, la hipótesis nula y la hipótesis alternativa generalmente se establecen con base en la secuencia lógica de eventos y los eventos de interés.
Después de formular una hipótesis estadística, utilice métodos adecuados para decidir si acepta la hipótesis nula. Debido a que los problemas encontrados al aplicar métodos estadísticos son diferentes, los métodos para resolverlos también son diferentes. Pero la idea básica para resolver el problema es la misma, es decir, todos se basan en la "inversión de probabilidad", es decir:
(1) Para probar si una hipótesis nula (es decir, la hipótesis nula) es verdadera, primero asuma que es verdadera y luego vea si aceptar esta suposición conducirá a resultados no razonables. Si el resultado es razonable, acéptelo; si no, rechace la hipótesis nula.
(2) Los llamados resultados irrazonables se basan en si ocurre un evento de pequeña probabilidad durante una observación. La probabilidad de un evento de probabilidad pequeño generalmente se establece en 0, que es el nivel de significancia. Es el área en cualquiera de los extremos o en uno de los extremos de una curva en una gráfica de una función numérica. Por lo tanto, en términos de pruebas estadísticas, se trata de cuestiones de pruebas bilaterales y pruebas unilaterales. En la práctica, el método de prueba utilizado está determinado por la naturaleza del problema real. Generalmente se puede considerar de la siguiente manera:
① Prueba bilateral. Si el propósito de la prueba es ver si la estadística muestral de la muestra difiere demasiado del parámetro hipotético (ya sea en dirección positiva o negativa), entonces el riesgo se divide en partes iguales entre los lados derecho e izquierdo. Por ejemplo, un nivel de significancia de 0,05 significa que la curva de probabilidad tiene 0,025 en cada lado.
② Inspección unilateral. Esta prueba sólo analiza si la estimación es demasiado alta o demasiado baja. Si sólo te centras en el nivel bajo, el valor crítico está a la izquierda, lo que se denomina prueba de la mano izquierda; si sólo te centras en lo alto, el valor crítico está a la derecha, lo que se denomina prueba de la mano derecha;
La prueba de parámetros poblacionales se logra mediante estadísticas calculadas a partir de muestras. Por lo tanto, el estadístico de prueba desempeña el papel de quien toma las decisiones.
Estimación de parámetros y prueba de hipótesis
La inferencia estadística es un método para inferir el desempeño de los padres a partir de información de muestra, que se puede subdividir en dos categorías: estimación de parámetros y prueba de hipótesis. En la producción real y en los experimentos científicos, una gran cantidad de problemas implican estimar y probar un determinado parámetro de la matriz después de obtener un lote de datos.
Por ejemplo, medimos la tenacidad a la fractura del acero No. 45. Después de obtener un lote de datos, podemos encontrar la tenacidad a la fractura promedio del acero No. 45 o encontrar el límite inferior unilateral de la fractura. tenacidad del acero No. 45. O encuentre la dispersión (es decir, el coeficiente de dispersión) de la tenacidad a la fractura del acero No. 45. Este es un problema de estimación de parámetros.
Para otro ejemplo, después de una acumulación a largo plazo, se conocen el promedio y la desviación estándar de la tenacidad a la fractura de un determinado material. Después de mejorar el tratamiento térmico, se mide otro lote de datos para ver si hay. una diferencia significativa entre el nuevo proceso y el antiguo proceso, este es un problema de prueba de hipótesis.
Se puede ver que la estimación de parámetros es el primer paso en la prueba de hipótesis. Sin la estimación de parámetros, la prueba de hipótesis no se puede completar.