[R-es] Mann-Whitney con datos temporales

Carlos J. Gil Bellosta cgb en datanalytics.com
Mar Mar 29 14:08:34 CEST 2016


Hola, ¿qué tal?

Estoy de acuerdo en todo menos en una cosa: que si las series están
autocorrelaccionadas (que lo estarán casi seguro), las diferencias también
lo estarán (necesariamente). Porque la primera cosa que se me ocurre (y no
me parece descabellada) es que si el efecto de la ubicación es aditivo, es
decir, si las temperaturas son

temp(t) + a1 + e1(t) para el sitio 1
temp(t) + a2 + e2(t) para el sitio 2

al tomar las diferencias hora a hora desaparecería el efecto de la serie
temporal subyacente, independientemente de su estructura y la prueba
pareada lo sería sobre la diferencia entre a1 y a2. Y la prueba por parejas
(de horas) tendría sentido.

Se puede comprobar (incluso a ojo; o más bien, primero y fundamentalmente a
ojo) si las diferencias tienen algún tipo de estructura temporal; en este
caso, quedaría invalidado todo lo dicho. Por supuesto.

Eso sí, sigue existiendo el problema de si las diferencias se deben a las
ubicaciones o a los sensores.

Salud,

Carlos J. Gil Bellosta
http://www.datanalytics.com

El 29 de marzo de 2016, 12:15, José Trujillo Carmona <trujillo en unex.es>
escribió:

> En mi modesta opinión el problema planteado no es con las réplicas.
>
> Efectivamente el problema de las réplicas existe. Al haber un único sensor
> en cada sitio no podrás saber si las diferencias las crea el sitio o el
> sensor. Para mí la solución, si fuese factible, sería intercambiar sensores
> un tiempo.
>
> Pero en todo caso el problema planteado creo que es comparar los dos
> conjuntos de datos, con la salvedad de que las diferencias pueden ser
> debidas al sitio o al sensor. Este problema topa con el problema principal
> de la falta de independencia entre observaciones.
>
> El test de Mann-Whitney-Wilcoxon, como los tests paramétricos
> convencionales, incluyen la suposición de que se está trabajando con una
> muestra obtenida mediante muestreo aleatorio simple, o lo que es lo mismo
> que los sucesivos valores encontrados son independientes entre sí. De hecho
> el calculo de la distribución de probabilidad del estadístico de contraste
> depende fuertemente de esta suposición.
>
> La solución que propone Carlos (tomar diferencias en datos apareados) no
> resuelve para nada el problema: si las series están autocorrelacionadas,
> las diferencias también lo estarán.
>
> En métodos paramétricos la solución es eliminar las componentes de
> autocorrelación hasta conseguir que la serie sea ruido blanco. Las
> soluciones no paramétricas suele ir en la misma dirección; aunque no creo
> que esté indicada la estimación de un modelo ARIMA (paramétrico). Ahora
> mismo no tengo tiempo de buscar las soluciones concretas, pero yo iría en
> la siguiente dirección:
>
> 1º Comprobar si efectivamente la serie está autocorrelacionada mediante
> algún test tipo test de Wald-Wolfowitz (ver en el paquete randtests). Si no
> lo estuviese la utilización directa de Mann-Whitney no tendría ningún
> problema.
>
> 2º Eliminar la autocorrelación mediante procedimientos de suavizado que
> por no necesitar la estimación de parámetros son "free distribution" como
> los de Suavizado Exponencial de Brown o los más complejos de Holt o incluso
> Holt-Winter.
>
> Con los residuos de la serie suavizada (o alisada) hasta que las
> observaciones sean independientes entre sí, utilizar el test de
> Mann-Whitney.
>
> Saludos.
>
>
>
> El 29/03/16 a las 10:05, Carlos J. Gil Bellosta escribió:
>
>> Hola, ¿qué tal?
>>
>> En el peor de los casos, tendrías que comparar parejas de temperaturas
>> (por
>> hora). Es decir, con paired = T. Aún así, como dices, tendrías el problema
>> de la correlación entre medidas.
>>
>> En este caso, como en casi todos, lo ideal es plantear un modelo similar a
>>
>> temp ~ temp(h) + sitio + error
>>
>> y ver si el coeficiente de sitio es o no cero. El problema particular de
>> este ejemplo es que temp(h) (un modelo para la temperatura en función de
>> la
>> hora) es una función no lineal. Igual podrías probar con los GAM.
>>
>> Un saludo,
>>
>> Carlos J. Gil Bellosta
>> http://www.datanalytics.com
>>
>>
>> El 28 de marzo de 2016, 16:56, Javier Martínez-López <
>> javi.martinez.lopez en gmail.com> escribió:
>>
>> Hola a tod en s,
>>>
>>> queremos hacer una comparación entre dos lugares muy alejados entre sí
>>> en relación a la temperatura de cada sitio usando medias horarias de
>>> un período determinado. Sólo hay medidas de un sensor en cada sitio y
>>> queremos saber si las diferencias son significativas o no entre
>>> sitios/curvas. Hemos usado un test de Mann–Whitney U con la función
>>> wilcox.test (paired=F) ya que los valores no son normales (n = 24; 24h
>>> en base a medias minutales). ¿Creéis que es correcto o estaríamos
>>> incumpliendo alguna asunción del test al ser datos temporales y/o no
>>> tener réplicas de los sensores?
>>>
>>> Muchas gracias y saludos,
>>>
>>> Javier
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es en r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>         [[alternative HTML version deleted]]
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es en r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es