Red de conocimientos turísticos - Preguntas y respuestas turísticas - Cómo identificar eficazmente trampas cognitivas en modelos de análisis de datos

Cómo identificar eficazmente trampas cognitivas en modelos de análisis de datos

Evite engaños: ¿cómo identificar trampas cognitivas en los datos?

Este artículo analiza cómo evitar que otros manipulen los datos para engañarnos.

En primer lugar, debemos dejar claro que aunque utilizamos el término "manipulación de datos", no nos importan los motivos, ya sea que cometamos errores intencionalmente para engañar, engañar intencionalmente o porque no. No somos lo suficientemente hábiles, no emitimos juicios ni distinguimos.

Solo analizamos cómo evitar ser engañados desde la perspectiva del pensamiento de datos, ya sea que la otra parte sea intencional o no.

Otro punto que es necesario aclarar es que lo que estamos discutiendo aquí es que los datos son reales, pero han sido mal utilizados, lo que lleva a engaño, y no incluye la manipulación de los datos.

Por ejemplo:

El gobierno indio encargó a un contratista indio que proporcionara seguridad alimentaria, incluidas las necesidades diarias y la seguridad vital, a los refugiados.

Pero como no hay un número exacto de refugiados, el gobierno debe pagar lo que los contratistas dicen que costará. Pero el gasto parecía demasiado grande y algunos sugirieron pedir ayuda a los estadísticos.

Los estadísticos se centran en tres cosas: arroz, frijoles y sal.

Si el número de personas es estable, entonces el consumo de estos tres alimentos es básicamente estable, por lo que se puede realizar una validación cruzada. Se encontró que la sal estimaba el menor número de personas y el arroz estimaba el mayor número de personas. Nadie exagera sobre este lugar porque el precio de la sal es bajo y la cantidad total es pequeña. El precio del arroz es alto y la cantidad total es grande, por lo que existe un incentivo para realizar cuentas falsas en este lugar.

Este caso trata sobre falsificación de datos para lograr fines ilegales, y él es un mentiroso con el más bajo nivel técnico. Eso no es de lo que estamos hablando aquí.

Utilizar datos reales para engañar a las personas mediante diversos métodos operativos es un trabajo altamente técnico. Esta dirección se analiza principalmente aquí.

Generalmente existen tres direcciones para manipular datos para engañar a la audiencia, a saber, el uso de datos manipulados, la generación de datos manipulados y la interpretación de datos manipulados.

El uso de datos manipulados:

Hay demasiados ejemplos de esto. Déjame ponerte algunos ejemplos:

Enmascarar distribuciones con promedios:

"Una empresa tiene 3003 accionistas, con un promedio de 660 acciones cada uno. La verdad que te engaña es esta". : La empresa tiene un total de 2 millones de acciones, de las cuales 3 accionistas principales poseen 3/4 y las 3.000 personas restantes poseen 1/4.

Utilice porcentajes para ocultar la escala:

"1/3 de las chicas de Hopkins están casadas con profesores universitarios, pero sólo tres estudiantes fueron admitidos, y 1 de ellos". Estaba casado con una maestra.

Reemplace los efectos a largo plazo con fluctuaciones a corto plazo;

"El Departamento de Salud anunció recientemente que el número de muertes en los suburbios del centro de Londres aumentó a 2.800 durante una semana con niebla". ¿Es por la niebla? ¿Cuál es el promedio de muertes en este lugar? ¿Qué pasa con el número de muertos en las próximas semanas?

Razones de los cambios omitidos:

"Las muertes por cáncer han aumentado en los últimos 25 años". Suena aterrador, pero muchos factores son más reveladores. Por ejemplo, muchos casos con causas desconocidas en el pasado ahora se diagnostican como cáncer; la autopsia se ha convertido en un método común para ayudar a hacer un diagnóstico claro; las estadísticas médicas son más completas y el número de grupos de edad susceptibles ha aumentado; Además, ahora hay mucha más gente que antes.

Conceptos de robo:

“Un miembro del comité sugirió que podríamos sacar a los reclusos de la prisión y vivir en hoteles, lo que costaría $8 por día para un recluso. y solo cuesta 7 dólares alojarse en un hotel”. Pero, de hecho, los 8 dólares aquí se refieren a todos los gastos de manutención de los prisioneros, y los legisladores están comparando sólo el alquiler del hotel.

Definiciones inconsistentes:

Varias plataformas dicen que tienen mayor tráfico, y la evidencia es que las series de televisión transmitidas en la plataforma tienen los ratings más altos. Pero la definición de cada compañía es diferente. Algunas usan calificaciones promedio, otras usan las calificaciones más altas de un solo episodio y algunas usan las calificaciones totales de estrenos y reposiciones.

Ignore los errores de medición:

"El coeficiente intelectual de Li Lei es 101 y el coeficiente intelectual de Han Meimei es 99, por lo que Li Lei es más inteligente que Han Meimei. Pero cualquier medición tiene errores y los resultados". se debe agregar el intervalo anterior, como 3. Desde este punto de vista, los rangos de coeficiente intelectual de Li Lei y Han Meimei se superponen y es imposible saber quién es más inteligente que el otro.

La diferencia es demasiado pequeña para ser práctica;

"Los resultados de pruebas de coeficiente intelectual a gran escala muestran que el promedio de los niños es 106,1 y el promedio de las niñas es 105,9". si esta diferencia existe estadísticamente, no tiene importancia práctica, porque la diferencia es demasiado pequeña.

Referencia poco clara:

"La función de extracción de jugo de este exprimidor se ha mejorado en 26". ¿Y si lo comparamos con el antiguo exprimidor manual?

Ignora la base al comparar:

"Hay 4 veces más accidentes en la carretera a las 7 de la tarde que a las 7 de la mañana, por lo que la probabilidad de sobrevivir es 4 veces mayor por la mañana". De hecho, hay más accidentes por la noche, simplemente porque hay mucha gente en la carretera por la noche.

Comparación forzada de diferentes objetos -

"Durante la guerra entre Estados Unidos y España, la tasa de mortalidad de la Marina de los EE. UU. fue del 9 ‰ y la tasa de mortalidad de los residentes de Nueva York fue del 16 ‰, así los soldados navales estaban más seguros. "De hecho, estos dos grupos de objetos no son comparables. La marina estaba formada principalmente por hombres jóvenes y fuertes, mientras que entre los habitantes de la ciudad había niños, ancianos y enfermos. La mortalidad entre estas personas es alta en todas partes.

Los cambios en los números base pueden provocar alucinaciones:

Un 50% de descuento o un 20% de descuento te harán sentir como si hubiera un 30% de descuento. De hecho, el descuento es solo del 40%, porque el 20% de descuento posterior se calcula en función del precio después del 50% de descuento.

Utilizar juegos digitales para controlar las emociones de la audiencia;

El retorno de la inversión es de 3 en el primer año y de 6 en el segundo año. Las dos afirmaciones siguientes son correctas: 1. Un aumento de 3 puntos porcentuales; 2. La tasa de crecimiento llega al 100. La forma de presentarlo depende de lo que quieras que sienta tu audiencia.

Generación de datos operativos -

Hay muchos ejemplos de esto, por ejemplo:

Las reglas utilizadas por los algoritmos son diferentes:

Experimentos Se utilizan dos algoritmos para juzgar las infracciones de tránsito: uno es "cumplir estrictamente las disposiciones de la ley", denominado versión de disposición, y se emitirá una multa siempre que la velocidad del vehículo cruce la línea. Otro es el principio de seguridad. Si la velocidad fuera segura en ese momento, no le multarían. Por ejemplo, no hay coches alrededor o todo el mundo es muy rápido. Reducir la velocidad es una roca en movimiento y no conduce a la seguridad. Este tipo de regla puede "reflejar con precisión la intención legal" y, por lo tanto, se denomina versión de intención.

Después de experimentos, en las mismas condiciones de tráfico, el algoritmo del grupo de artículos emitió 500 multas, mientras que el algoritmo del grupo de intención solo emitió 1 multa. ¿Crees que las infracciones de tránsito son graves o no?

Las condiciones experimentales se establecieron incorrectamente:

Un artículo ganó un premio provincial diciendo que la gelatina de piel de burro tiene buenos efectos nutricionales. El método consiste en desnutrir primero a los ratones y luego alimentarlos con gelatina de piel de burro. Los resultados mostraron que todos los datos eran mejores que los del grupo de control. Parece que la gelatina de piel de burro es realmente eficaz, pero si nos fijamos en el grupo de control, a los ratones desnutridos sólo se les da agua. Esto equivale a la diferencia entre dar algo de comer y no dar algo de comer, en lugar de la diferencia entre la gelatina de piel de burro y los suplementos nutricionales comunes. Por supuesto, las conclusiones experimentales no son fiables.

Para evitar trampas, enfatizo que la conclusión de este artículo no es confiable y no es una discusión sobre si la gelatina de piel de burro es nutritiva.

El orden de las preguntas afecta la elección del encuestado;

La encuesta muestra que si primero se hacen preguntas sobre publicidad de ropa y luego preguntas sobre publicidad general, las mujeres tienen una actitud más positiva hacia la publicidad. .

Según encuestas realizadas a la gente corriente, también existen problemas de orden similares. Por ejemplo, primero pregunte si su vida matrimonial es feliz y luego si su vida en general es feliz. Los encuestados excluyen automáticamente los sentimientos sobre la vida matrimonial y evalúan la vida en su conjunto. La verdad es todo lo contrario.

Interpretación de los datos de control:

Permítame darle algunos ejemplos para que se haga una idea:

Error de atribución:

Un instructor de vuelo dijo con mucha confianza: "Las críticas hacen que las personas progresen, mientras que los elogios hacen que las personas retrocedan". Porque el instructor descubrió que mientras los estudiantes sean elogiados, el desempeño de los estudiantes definitivamente empeorará al día siguiente y los estudiantes que critican. mejorará al día siguiente.

De hecho, se trata de un fenómeno de regresión. Si el estudiante es elogiado hoy, significa que su desempeño hoy está por encima de su nivel promedio, y es normal que regrese al nivel promedio al día siguiente.

La causalidad no está establecida:

En India, los investigadores descubrieron que las personas que ven televisión tienen actitudes más positivas hacia la igualdad de género.

¿Sugiere esto que deberíamos popularizar la televisión para cambiar las actitudes hacia las mujeres en la India rural?

El hecho es que las personas con un buen nivel educativo pueden permitirse un televisor, y las personas con un nivel educativo elevado están más abiertas a la igualdad de género. Ver televisión con frecuencia y tener actitudes positivas hacia la igualdad de género no son una relación causal, sino una relación concomitante.

Error de aplicación teórica:

Hay un chiste en Internet que dice que 8.000 personas en la dinastía Han mantenían a un funcionario público, 3.000 en la dinastía Tang, 2.000 en la dinastía Ming y 1.000 en la dinastía Qing. Hoy son 18, lo que implica que hay demasiados funcionarios en esta época.

Este error se amplifica o reduce incondicionalmente. A medida que aumenta el tamaño de la población, el número de personas que necesitan servicios públicos no crece linealmente sino geométricamente. Sólo bajo un marco teórico razonable podemos evaluar si 18 personas apoyan a 1 funcionario es más o menos...