[R-es] Normalidad variable > 5000 observaciones

José Trujillo Carmona truj|||o @end|ng |rom unex@e@
Lun Abr 27 09:17:34 CEST 2020


Efectivamente Guido tiene razón. Una prueba de normalidad a una muestra 
que supera las 5000 observaciones no tiene mucho sentido.

Igual que ningún dado es exactamente equiprobable, a algún nivel de 
detalle habrá una irregularidad que lo haga en algún sentido defectuoso, 
ninguna variable real es exactamente normal. La distribución normal es 
una distribución teórica que es esperable que aparezca mucho como 
consecuencia del teorema del límite central; pero solo igual que el 
dado. Son modelos teóricos para predecir comportamientos que en la 
naturaleza solo aparecerán de forma aproximada.

Si tienes muchas observaciones, las desviaciones del modelo se harán 
relevantes y algún tests adecuado mostrará que es una variable real y no 
un modelo teórico.

Si deseas predecir observaciones con mucha precisión en la probabilidad 
asociada a las predicciones, en lugar de utilizar una distribución 
teórica tienes algunas alternativas. Por una parte puedes estimar la 
propia distribución de probabilidad mediante núcleos (consultar 
stats::density y car::densityPlot) o mediante técnicas de bootstrap.

Por otra parte, si el objetivo es la aplicación de técnicas 
paramétricas, el propio teorema sirve para resolver el problema. La 
mayoría de los estadísticos utilizados en los métodos paramétricos 
pueden ser escritos como combinaciones lineales de las observaciones, lo 
que permite tratarlos como si tuviesen distribución aproximadamente 
normal. Por otro lado si, note fías o te es insuficiente, los métodos 
basado en bootstrap vuelven a ser una solución más que adecuada.

En definitiva, aunque puedo estar equivocado, no se me ocurre la 
necesidad de aplicar contrastes de normalidad útiles a enormes muestras.

Saludos.

El 26/4/20 a las 17:49, Guido Corradi escribió:
> Las pruebas de normalidad en muestras grandes sufren de sobre-sensiblidad.
> Según lo que he leído (y cualquier reviewer aceptará...) cuando hay una
> muestra grande la inspección visual del qq-plot será suficiente!
>
>
> El dom., 26 abr. 2020 a las 12:51, Carlos Ortega (<cof using qualityexcellence.es>)
> escribió:
>
>> Hola,
>>
>> Aquí tienes una forma alternativa:
>>
>>
>> https://stackoverflow.com/questions/17125458/r-shapiro-test-cannot-deal-with-more-than-5000-data-points
>>
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>> El dom., 26 abr. 2020 a las 12:11, Rafael Santamaria (<
>> rsantamariao using gmail.com>) escribió:
>>
>>> Hola!
>>>
>>> Necesito evaluar la normalidad de una variable para la que tengo más de
>>> 5000 observaciones.
>>>
>>> Shapiro-Wilks no funciona para muestras mayores 5000 observaciones.
>>>
>>> AAlshap <- lapply(AAdf, shapiro.test)
>>> Error in FUN(X[[i]], ...) : sample size must be between 3 and 5000
>>>
>>> Alguna sugerencia?
>>>
>>> Gracias.
>>>
>>>          [[alternative HTML version deleted]]
>>>
>>> _______________________________________________
>>> R-help-es mailing list
>>> R-help-es using r-project.org
>>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>>
>>
>> --
>> Saludos,
>> Carlos Ortega
>> www.qualityexcellence.es
>>
>>          [[alternative HTML version deleted]]
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es using r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>



Más información sobre la lista de distribución R-help-es