[R-es] Remuestreo de Clusters

Jue Jun 25 01:09:15 CEST 2009

Hola, ¿qué tal?

Sería interesante poder echarle un buen vistazo a esos programas y
métodos de Statistical Innovations. Pero ésa es otra historia.

El problema de tus iteraciones consiste en que en función de la
elección de los centroides originales, k-means queda atrapado en uno u
otro mínimo local distinto. Es muy difícil saber si el clúster 4 de la
iteración 729 se corresponde con el clúster 7 de la iteración 273.

Lo que tal vez pudiera darte idea de si los clústers recogen la
estructura de los datos es un algoritmo basado en lo siguiente:

1) Toma un x% de tus datos y ajusta un kmeans, guarda los centroides.

2) Itera cierto número de veces lo siguente:

2a) Muestrea un x% de tus datos.
2b) Ajusta un kmeans obligando a que el algoritmo arranque _desde tus
centroides originales_.

3) Mira a ver si cada observación tiende a caer siempre en el mismo clúster.

El paso 2b sería fácil de realizar si las etiquetas de los clústers se
relacionasen (habría que comprobarlo) con el orden de los centroides
de partida. Pero, vale la pena insistir, es clave poder arrancar desde
centroides dados.

No se me ocurre cuál podría ser la hipótesis H0 de partida sobre la
que construir un p-valor: ¿tal vez que los datos originales proceden,
por ejemplo, de una distribución normal con media y varianza dadas?

Un saludo,

Carlos J. Gil Bellosta