Red de conocimientos turísticos - Información sobre alquiler - Econometría avanzada 14: Modelo de elección binaria (conceptos básicos)

Econometría avanzada 14: Modelo de elección binaria (conceptos básicos)

Respecto al progreso de mi proyecto personal, ¿elegiré qué necesito aprender primero en función del progreso? ¡Lo siento si no está en el orden normal!

Este artículo es "Notas de aplicación de estadística y econometría avanzada" publicado por Higher Education Press, autor Chen Qiang.

Solo tomé notas sobre los conocimientos que podía utilizar personalmente y profundicé en las partes difíciles de entender del libro de texto. Para que sea más fácil de entender, también modifiqué algunas partes del libro de texto (incluidas las pruebas y el texto).

Tabla de contenido

Si las variables explicativas son discretas (por ejemplo, variables ficticias), esto no afecta la regresión. Pero a veces las variables que se explican son discretas en lugar de continuas, lo que puede resultar un dolor de cabeza.

Este modelo se denomina modelo de elección discreta o modelo de respuesta cualitativa. Además, en ocasiones las variables que se explican sólo pueden tomar números enteros no negativos, como por ejemplo el número de patentes obtenidas por una empresa en un determinado periodo. Este tipo de datos se denominan datos de recuento y sus variables explicativas también son discretas.

Considerando la naturaleza discreta de las variables explicadas, MCO no suele ser adecuado para la regresión.

Supongamos que un individuo tiene sólo dos opciones, como y. La decisión de tomar el examen de ingreso de posgrado depende de los ingresos esperados del graduado y de sus intereses personales después de graduarse. Se supone que estas variables explicativas están integradas en el vector. Por tanto, el modelo más sencillo es el modelo de probabilidad lineal (LPM):

Requisitos de estimación consistentes (sin endogeneidad). Sin embargo, existen varios problemas:

Aunque LPM tiene las deficiencias mencionadas anteriormente, sus ventajas son un cálculo conveniente y un análisis de importancia económica sencillo. Por lo tanto, para que el valor predicho esté siempre en algún punto intermedio, ampliamos el LPM: En el caso dado, la probabilidad considerando una distribución de dos puntos es:

Por lo tanto, la función se llama función de enlace porque Vincula las variables explicativas con las variables explicadas. Como el valor de es 0 o 1, debe obedecer a una distribución de dos puntos.

La elección de la función de conexión tiene un cierto grado de flexibilidad, que se puede garantizar eligiendo una función de conexión adecuada, que puede entenderse como la "probabilidad de ocurrencia" porque:

En particular, si se trata de la función acumulativa de distribución normal estándar (cdf), entonces:

Entonces este modelo se llama modelo Probit. Si es un CDF de distribución logística, es decir:

Entonces este modelo se llama modelo Logit.

Debido a que la función de distribución logística tiene una expresión analítica, pero la distribución normal no, suele ser más conveniente calcular el modelo logit que el modelo probit. Obviamente, este es un modelo no lineal y puede estimarse utilizando el método de máxima verosimilitud (MLE). Tomando el modelo Logit como ejemplo, la densidad de probabilidad de los primeros datos de observación es:

Puedes escribirlo sin segmentación:

En términos de logaritmos, existen:

Suponiendo que los individuos de la muestra son independientes entre sí, la LLF (función logarítmica de verosimilitud) de toda la muestra es:

Este problema de maximización no lineal se puede resolver utilizando métodos numéricos.

Cabe señalar que en este modelo no lineal, el estimador no tiene efecto marginal. Tomando Probit como ejemplo, se puede calcular:

Aquí usamos la regla de la cadena de diferenciación y asumimos que es una variable continua. Debido a que Probit y Logit utilizan diferentes funciones de distribución, sus parámetros no se pueden comparar directamente, sino que sus efectos marginales deben calcularse por separado y luego compararse. Sin embargo, para los modelos no lineales, el efecto marginal en sí no es constante, sino que cambia a medida que cambian las variables explicativas. Los conceptos de efectos marginales utilizados comúnmente son:

Los resultados del cálculo de los tres efectos marginales anteriores pueden ser diferentes. Tradicionalmente, es relativamente sencillo calcular el efecto marginal en la media de la muestra; sin embargo, en los modelos no lineales, el comportamiento individual en la media de la muestra generalmente no es representativo del comportamiento promedio del individuo (el comportamiento promedio del individuo es diferente del comportamiento promedio del individuo); ). Para el análisis de políticas, los efectos marginales promedio son más significativos y son el método predeterminado de Stata.

Dado que no es un efecto marginal, ¿cuál es su importancia económica? Para el modelo logit, sea, entonces, porque, entonces:

donde, se llama odds ratio o riesgo relativo. Si la razón de probabilidad es 2, significa que la probabilidad es el doble. Para la derivada derecha de la segunda ecuación, podemos encontrar este significado: si se suma una pequeña cantidad, la razón de probabilidad aumenta como porcentaje. Por lo tanto, se puede considerar como semielasticidad, es decir, el cambio porcentual en la razón de probabilidad causado por aumentar una unidad.

Hay otro significado que al campo de la bioestadística le gusta usar particularmente, es decir, la relación entre la nueva relación de probabilidad y la relación de probabilidad original se puede escribir como:

Entonces , representa la causa El múltiplo de cambio de la razón de probabilidad.

De hecho, si es muy pequeño, los dos métodos son equivalentes (expansión de Taylor). Pero si necesita cambiar la unidad (como el sexo, si está casado o no), debe usarla. Además, el modelo Probit no puede interpretar los coeficientes de manera similar, lo cual es un defecto del modelo Probit.

¿Cómo medir la bondad de ajuste de un modelo no lineal? No se puede calcular sin la fórmula de descomposición de la suma de cuadrados. Sin embargo, Stata todavía reporta un cuasi-R2 (pseudo), que fue propuesto por McFadden (1974) y se define como:

donde es el LLF máximo del modelo original y es único con el término constante The LLF máximo de la variable explicativa. Debido a que es una distribución discreta de dos puntos, el valor máximo posible de la función de verosimilitud LF es 1, por lo que el valor máximo posible de LLF es 0, registrado como . Entonces, debe haberlo.

Otra forma de juzgar la bondad del ajuste es calcular el porcentaje de predicciones correctas. De hecho, creo que se pueden utilizar una serie de métodos de bondad de ajuste comúnmente utilizados en el campo del aprendizaje automático, como MSE y MAPE.

Esta sección revisa principalmente el contenido de Metrología Avanzada 12 y Metrología Avanzada 13.

En términos generales, para realizar inferencia estadística en modelos Probit y Logit, se requieren los siguientes supuestos:

Primero explique las dos pruebas: la prueba conjunta de todos los coeficientes y la prueba independiente de un solo coeficiente.

(1) Significancia conjunta de todos los coeficientes

Cuando se utiliza Stata, se informa una estadística de prueba LR para probar la significancia de todos los demás coeficientes excepto la constante (es decir, la significancia conjunta de todos los coeficientes). . En Econometría avanzada 13, derivamos la expresión de inferencia estadística LR del coeficiente MLE:

La expresión de inferencia estadística anterior solo se basa en dos condiciones: la muestra i.i.d y la función de probabilidad son correctas. La primera es la aplicación de la ley de los grandes números y el teorema del límite central, y la segunda es el uso de ecuaciones matriciales de información.

Para los modelos Probit y Logit, si la función de distribución no está configurada correctamente, se trata de una estimación de verosimilitud cuasi máxima (QMLE), así que preste atención a:

(2) La importancia de un solo coeficiente

Cuando se utiliza Stata, Std. Bien. También se informa cada coeficiente. Si desea inferir la importancia de un solo coeficiente, debe utilizar la derivación en Econometría avanzada 12, Sección 6.5.2:

A. Bajo el supuesto de que la muestra de muestreo es i.i.d., podemos comenzar desde. la ley de los grandes números y el teorema del límite central deducen:

B. Suponiendo que la función de distribución está configurada correctamente (por lo tanto, se puede usar la Prueba 3 usando la Medición avanzada 11), se puede deducir además:

Como antes Como se indicó, incluso si la función de distribución se configura incorrectamente, si se cumple, la desviación estándar robusta es igual a la desviación estándar ordinaria del MLE en el caso de i.i.d. usarse mientras dure.

C. Si este es el caso, los modelos Probit y Logit no pueden obtener estimaciones consistentes de los coeficientes. La inferencia estadística no tiene sentido en este momento.

Si quieres probar un único coeficiente de la fórmula anterior, obviamente necesitarás parámetros reales desconocidos. Entonces podemos manejarlo de acuerdo con el método 6.6 de Medición avanzada 12, por lo que no entraremos en detalles aquí.