Definición de análisis de conglomerados
No existen datos históricos fiables para varias cosas, por lo que es imposible determinar cuántas categorías hay. El propósito es agrupar cosas con propiedades similares en una categoría.
Existe cierta correlación entre indicadores.
El análisis de conglomerados (cluster***ysis) es un conjunto de técnicas de análisis estadístico que dividen los objetos de investigación en grupos relativamente homogéneos.
El análisis de clustering es diferente del análisis de clasificación (ysis), que es un aprendizaje supervisado.
Tipo de variable: variable categórica, variable cuantitativa (discreta y continua) 1, agrupamiento jerárquico.
Método de fusión, método de descomposición, dendrograma
2. Agrupación no jerárquica
Agrupación de particiones y agrupación espectral
Características de la agrupación Método: El análisis de conglomerados es simple e intuitivo.
El análisis de conglomerados se utiliza principalmente para investigaciones exploratorias y los resultados de su análisis pueden proporcionar una variedad de soluciones posibles. La selección de la solución final requiere del juicio subjetivo del investigador y del análisis posterior. Independientemente de si existen diferentes categorías en los datos reales, se pueden obtener soluciones divididas en varias categorías mediante el análisis de conglomerados. La solución del análisis de conglomerados depende completamente de las variables de agrupamiento seleccionadas por el investigador, y agregar o eliminar algunas variables puede tener un impacto sustancial en la solución final.
Al utilizar el análisis de conglomerados, los investigadores deben prestar especial atención a los diversos factores que pueden afectar a los resultados.
Los valores atípicos y las variables especiales tienen un fuerte impacto en la agrupación. Cuando las escalas de medición de variables categóricas son inconsistentes, se deben estandarizar previamente.
Por supuesto, lo que el análisis de conglomerados no puede hacer es encontrar automáticamente y decirle en cuántas categorías debe dividirse; es un método de análisis no supervisado.
No es realista esperar encontrar claramente clases o segmentos de mercado aproximadamente iguales;
Agrupación de muestras, la relación entre variables debe ser determinada por el investigador;
Los mejores resultados de agrupación no se obtendrán automáticamente;
El análisis de agrupación del que estoy hablando aquí es principalmente agrupación jerárquica, K-medias y agrupación de dos pasos).
Medida que describe el grado de correspondencia o conexión estrecha entre dos individuos (o variables) basándose en variables de agrupamiento.
Se puede medir de dos formas: 1. Utilice un índice que describa la proximidad entre pares de individuos (pares de variables), como "distancia". Cuanto menor es la "distancia", más similares son los individuos (variables).
2. Utilizar indicadores que indiquen el grado de similitud, como el "coeficiente de correlación". Cuanto mayor es el "coeficiente de correlación", más similares son los individuos (variables).
Hay muchas formas de calcular el índice de distancia de agrupamiento D (distancia): se pueden seleccionar diferentes índices de distancia según las diferentes propiedades de los datos.
Distancia euclidiana, distancia euclidiana al cuadrado, distancia de Manhattan, distancia de Chebyshev, medida chi-cuadrado, bloques. Hay muchas similitudes, ¡principalmente el coeficiente de correlación de Pearson! Las escalas de medición de las variables de agrupación son diferentes y las variables deben estandarizarse de antemano. Si algunas variables en las variables de agrupación están altamente correlacionadas, significa que el peso de esta variable será mayor; El cuadrado de la distancia euclidiana es la medida de distancia más utilizada. Los algoritmos de agrupación tienen un mayor impacto en los resultados de agrupación que los métodos de medición de distancia; los métodos de estandarización afectan los patrones de agrupación: la estandarización de variables tiende a producir agrupaciones basadas en números; la estandarización de muestras tiende a producir agrupaciones basadas en patrones; el número general de agrupaciones es de 4 a 6; no es fácil tener demasiados o muy pocos centros de grupo
Centro de grupo
Definición de distancia entre grupos y selección de variables categóricas
Método de agrupación
Determinar el número de grupos
Evaluación de los resultados del clustering
La descripción e interpretación de los resultados pertenecen a un método de clustering no jerárquico.
(1) Proceso de ejecución
Inicialización: seleccionar (o especificar manualmente) algunos registros como puntos condensados.
Período:
Reúna los registros restantes hasta el punto de condensación según el principio de proximidad.
Calcule la posición central (media) de cada categoría inicial.
Reagrupar utilizando las posiciones centrales calculadas.
Este ciclo se repite hasta que converge la ubicación del punto de condensación.
(2) Características del método
Normalmente se requiere un número conocido de categorías.
La posición inicial se puede especificar manualmente.
Ahorro de tiempo de operación
Debe considerarse cuando el tamaño de la muestra es superior a 100.
Solo se pueden utilizar características de variables continuas:
Procesamiento de objetos: variables categóricas y variables continuas.
Determinar automáticamente el mejor número de clasificación
Procesamiento rápido de grandes conjuntos de datos
Supuestos previos:
Las variables son independientes entre sí .
Las variables categóricas obedecen a una distribución polinómica y las variables continuas obedecen a una distribución normal.
El primer paso de la solidez del modelo: escanear muestras una por una, y cada muestra se clasifica en la categoría anterior o en una nueva categoría según su distancia de la muestra escaneada.
El segundo paso es fusionar clases de acuerdo con la distancia entre clases en el primer paso y dejar de fusionar de acuerdo con ciertos estándares.
Análisis Discriminante
Introducción: Análisis Discriminante
La taxonomía es la ciencia básica para que el ser humano entienda el mundo.
El análisis de conglomerados y el análisis discriminante son métodos básicos para estudiar la clasificación de las cosas y se utilizan ampliamente en diversos campos de las ciencias naturales, las ciencias sociales y la producción industrial y agrícola.
Análisis Discriminante
Resumen
Modelo DA
Estadísticas relacionadas con la Agenda de Desarrollo
Dos grupos de DA
Análisis de casos
Análisis discriminante
El análisis discriminante consiste en encontrar la función discriminante en función de los valores de las variables que representan las cosas y sus características de categoría.
Método analítico para clasificar cosas pertenecientes a categorías desconocidas basado en funciones discriminantes.
El núcleo es examinar las diferencias entre categorías.
Análisis discriminante
Diferencia: La diferencia entre análisis discriminante y análisis de conglomerados es que el análisis discriminante requiere conocer los valores de una serie de variables numéricas que reflejan las características de las cosas y las clasificación de cada individuo.
DA se aplica a variables fijas (causas) y variables arbitrarias (auto)
Dos tipos: función discriminante;
Múltiples grupos: más de una función discriminante
Finalidad de DA
Establecer una función discriminante
Comprobar si existen diferencias significativas entre diferentes grupos en cuanto a variables predictoras.
Determine qué variable predictiva contribuye más a la diferencia entre los grupos.
Clasificar individuos en función de variables predictoras.