El análisis de conglomerados es una técnica para agrupar observaciones similares en varios conglomerados o grupos en función de múltiples variables para cada uno de los valores observados.
El objetivo del análisis de conglomerados es agrupar una colección de objetos de tal manera que los objetos en un mismo grupo (llamado cluster) sean más parecidos entre sí (en cierto sentido) que los objetos en otros grupos (clusters).
¿Qué es el análisis de conglomerados?
La investigación de agrupaciones considera de alguna manera los conglomerados de objetos de datos como idénticos. Los líderes de un cluster son más parecidos entre sí que los miembros de otros clusters. El objetivo del análisis de conglomerados es identificar los clusters de alta calidad para que la similitud entre los clusters sea pequeña y la similitud entre los clusters sea alta.
Es una de las principales tareas de la exploración de la minería de datos y una técnica estándar del procesamiento de datos estadísticos que se utiliza en muchos campos, incluyendo el aprendizaje automático, el reconocimiento de patrones, el análisis de imágenes, la recuperación de conocimientos, y otros.
La agrupación se utiliza para segmentar los datos, al igual que la clasificación. Los modelos de agrupación segmentan los datos en clases que no han sido definidas previamente, a diferencia de la clasificación. Los modelos de clasificación segmentan los datos asignándolos a clases previamente definidas y especificadas en un objetivo.
Metodología del análisis de conglomerados
El análisis de conglomerados es uno de los tipos de análisis de datos que pretende detectar la división natural de los objetos. En otras palabras, agrupa observaciones similares en subconjuntos homogéneos. Dichas subclases pueden revelar patrones asociados con el fenómeno bajo estudio.
La agrupación es útil en la investigación de datos. Los algoritmos de agrupación pueden utilizarse para encontrar agrupaciones naturales si hay muchos casos y no existen agrupaciones claras.
La agrupación también puede servir como un paso útil en el pre procesamiento de datos para clasificar grupos homogéneos en los que se puedan construir modelos supervisados.
La agrupación también puede utilizarse para detectar anomalías. Al segmentar los datos en clusters, algunos casos podrían no encajar en ninguno. En estos casos hay excepciones o valores atípicos.
Quizá te interese conocer también sobre el análisis de regresión.
Deja una respuesta