Red de conocimientos turísticos - Información de alquiler - ¿Qué significa el análisis de conglomerados jerárquico?

¿Qué significa el análisis de conglomerados jerárquico?

La agrupación es un método para clasificar datos de destino en un pequeño número de grupos o "clústeres" relativamente homogéneos. Los datos de expresión se analizan: (1) estandarizando la variación en un conjunto de genes que se van a probar mediante una serie de pruebas y luego comparando covarianzas lineales por pares. (2) Agrupar muestras colocando genes en los mapas más estrechamente relacionados, por ejemplo mediante agrupación jerárquica simple. Esta agrupación también se puede extender a cada muestra experimental explotando la correlación lineal total de un conjunto de genes. (3) El análisis de escala multidimensional (MDS) es un método que utiliza una "distancia" euclidiana bidimensional para mostrar el grado aproximado de correlación de las muestras experimentales. (4) K-means clustering, que es un método que minimiza la dispersión dentro de una "clase" reasignando repetidamente miembros de la clase.

Los métodos de agrupación tienen dos limitaciones importantes: primero, para que los resultados de la agrupación sean inequívocos, los datos deben estar bien separados. Casi todos los algoritmos existentes pueden producir los mismos grupos a partir de clases de datos que no se superponen y que son diferentes entre sí. Sin embargo, si las clases de datos están dispersas e interpenetradas, los resultados de cada algoritmo serán algo diferentes. Por lo tanto, los límites definidos por cada algoritmo no son claros, cada algoritmo de agrupamiento puede obtener sus propios resultados óptimos y cada segmento de datos producirá una única pieza de información. Para explicar los diferentes resultados producidos por diferentes algoritmos sobre los mismos datos, se debe prestar atención a la forma en que se juzgan las diferencias. Es difícil para los genetistas interpretar correctamente los resultados reales del contenido de agrupamiento de ambos algoritmos (especialmente los límites). En última instancia, se necesitan comparaciones de secuencias para guiar la plausibilidad empírica de las interpretaciones de los grupos.

La segunda limitación proviene de la correlación lineal. Todos los métodos de agrupación anteriores solo pueden analizar relaciones simples uno a uno. Dado que sólo comparan linealmente relaciones por pares, reducen en gran medida el esfuerzo computacional para descubrir relaciones de tipos de expresión, pero ignoran la naturaleza multifactorial y no lineal de los sistemas biológicos.

Desde una perspectiva estadística, el análisis de conglomerados es un método de simplificación de datos mediante el modelado de datos. Los métodos tradicionales de análisis de agrupamiento estadístico incluyen agrupamiento sistemático, descomposición, unión, agrupamiento dinámico, agrupamiento de muestras ordenadas, agrupamiento superpuesto y agrupamiento difuso. Muchos paquetes de software de análisis estadístico conocidos, como SPSS, SAS, etc., han agregado herramientas de análisis de conglomerados utilizando algoritmos como K-medias y K-puntos centrales.

Desde la perspectiva del aprendizaje automático, la agrupación en clústeres equivale a patrones ocultos. La agrupación en clústeres es un proceso de aprendizaje no supervisado que busca clústeres. A diferencia de la clasificación, el aprendizaje no supervisado no se basa en clases predefinidas o instancias de entrenamiento con etiquetas de clase. En cambio, requiere un algoritmo de aprendizaje de clúster para determinar automáticamente las etiquetas, mientras que la clasificación aprende instancias u objetos de datos con etiquetas de clase. La agrupación es un aprendizaje observacional en lugar de un aprendizaje basado en instancias.

Desde una perspectiva de aplicación práctica, el análisis de conglomerados es una de las principales tareas de la minería de datos. En lo que respecta a las funciones de minería de datos, la agrupación se puede utilizar como una herramienta independiente para obtener la distribución de datos, observar las características de cada grupo y centrarse en un conjunto específico de grupos para su posterior análisis.

El análisis de conglomerados también se puede utilizar como paso de preprocesamiento para otras tareas de minería de datos (como clasificación, reglas de asociación).

El objetivo del campo de la minería de datos es proporcionar algoritmos de análisis de clústeres eficientes y prácticos para grandes bases de datos y almacenes de datos.

El análisis de clusters es un campo de investigación muy activo en la minería de datos y se han propuesto muchos algoritmos de clustering.

Estos algoritmos se pueden dividir en métodos de partición, métodos jerárquicos, métodos basados ​​en densidad, métodos basados ​​en cuadrículas y

métodos basados ​​en modelos.

1 Método de partición (PAM: método de partición) Primero cree k particiones, k es el número de particiones que se crearán y luego use la tecnología de posicionamiento en bucle

para mover objetos de una partición a otra; otra Una partición para ayudar a mejorar la calidad de la partición. Los métodos de partición típicos incluyen:

k-means, k-medoids, CLARA (agrupación de aplicaciones grandes),

CLARANS (agrupación de aplicaciones grandes basada en búsqueda aleatoria).

FCM

2 El método jerárquico crea una estructura jerárquica para desglosar un conjunto de datos determinado. Este enfoque se puede dividir en dos operaciones: de arriba hacia abajo (descomposición) y de abajo hacia arriba (fusión).

Para compensar las deficiencias de la descomposición y la fusión, la fusión jerárquica generalmente debe combinarse con otros métodos de agrupación (como el posicionamiento en bucle). Estos métodos típicos incluyen:

El primero es el método BIRCH (Reducción iterativa equilibrada y agrupación en clústeres mediante jerarquía), que primero utiliza la estructura del árbol para dividir el conjunto de objetos y luego utiliza

Otros métodos de agrupación optimizan estos grupos.

El segundo es el método CURE (Agrupación mediante REprisentativos), que utiliza un número fijo de objetos representativos para representar grupos y luego se contrae en una cantidad específica

(hacia el centro del grupo); los cúmulos.

El tercero es el método ROCK, que utiliza conexiones entre clústeres para fusionarlos.

El último es CHEMALOEN, que construye modelos dinámicos mientras realiza agrupaciones jerárquicas.

3 El método basado en densidad agrupa objetos según su densidad. Forma grupos en función de la densidad alrededor de los objetos (como

DBSCAN). Los métodos típicos basados ​​en densidad incluyen:

DBSCAN (Agrupación espacial de aplicaciones con ruido basada en densidad): este algoritmo realiza la agrupación mediante regiones en continuo crecimiento de densidad suficientemente alta.

Es capaz de; de descubrir formas arbitrarias a partir de bases de datos espaciales que contienen grupos ruidosos. Este método define un clúster

como un conjunto de puntos "densamente conectados".

OPTICS (Ordenar puntos para identificar la estructura de los conglomerados): no genera conglomerados explícitamente, sino que calcula un orden de conglomerados mejorado para el análisis interactivo automatizado de los conglomerados.

4 El método basado en cuadrícula primero divide el espacio del objeto en un número limitado de celdas para formar una estructura de cuadrícula y luego utiliza la

estructura de cuadrícula para completar la agrupación.

STING (Statistics Information Grid) es un

método de agrupación basado en cuadrículas que utiliza información estadística almacenada en celdas de la cuadrícula.

CLIQUE (Clustering en QUEst) y Wave-Cluster son métodos que combinan métodos basados ​​en cuadrículas y basados ​​en densidad

.

5 Los métodos basados ​​en modelos asumen un modelo para cada grupo y encuentran datos que se ajustan al modelo correspondiente. Los métodos típicos

basados ​​en modelos incluyen:

Método estadístico COBWEB: es un método de agrupación de conceptos incremental simple y de uso común. Sus objetos de entrada se describen mediante pares de números de símbolos (atributo-valor). Cree agrupaciones jerárquicas en forma de árbol de clasificación

.

CLASSIT es otra versión de COBWEB.... Permite la agrupación incremental de atributos valorados continuamente

. Almacena la distribución normal continua correspondiente (media y varianza) en cada nodo para cada atributo y utiliza un método mejorado para describir las capacidades de clasificación, es decir, no calcula atributos discretos como la suma COBWEB (valor); >, sino que integra atributos continuos. Pero el método CLASSIT también tiene problemas similares a COBWEB.

Por lo tanto, no son adecuados para agrupar bases de datos grandes.