[R-es] random forest y datos faltantes

Eric Concha M. er|cconch@munoz @end|ng |rom gm@||@com
Mie Mayo 19 18:42:49 CEST 2021


Hoal Carlos, muchas gracias por compartir tu experiencia.

Slds,

Eric.



On Wed, 19 May 2021 12:01:29 +0200
Carlos Ortega <cof using qualityexcellence.es> wrote:

> Hola Eric,
> 
> La función "pool()" es una modificación de las funciones "tidy()" y
> "glance()" del paquete "broom" y permite extraer y presentar de forma
> muy amigable resultados de un modelo.
> El paquete "broom" incluye la posibilidad de extraer parámetros,
> coeficientes, valores de bondad de ajuste, etc de múltiples modelos
> de R. El paquete "mice" lo que hace es utilizar esta función para
> presentarte resultados del modelo ajustado de forma muy equivalente a
> lo que hacen las funciones de "broom".
> 
> En tu caso, simplemente imputa tus NAs con los paquetes "missForest"
> (te recomiendo muy especialmente otra alternativa con "missRanger") o
> cualquier otro, y sobre el conjunto imputado tendrás que definir un
> modelo ("lm", "glm"... lo que consideres) y sobre el modelo ajustado
> usa la función "tidy()" o "glance(), tendrás que haber incluido la
> librería "broom" previamente. Y tendrás tus resultados como en "mice".
> 
> Mira el ejemplo de la salida que producen las funciones "tidy()" y
> "glance()" del paquete "broom" para que veas que el resultado es
> equivalente al que produce "pool()"
> 
> > library(ggplot2)
> > library(dplyr)
> >
> > mod <- lm(mpg ~ wt + qsec, data = mtcars)
> >
> > tidy(mod)
> # A tibble: 3 x 5
>   term        estimate std.error statistic  p.value
>   <chr>          <dbl>     <dbl>     <dbl>    <dbl>
> 1 (Intercept)   19.7       5.25       3.76 7.65e- 4
> 2 wt            -5.05      0.484    -10.4  2.52e-11
> 3 qsec           0.929     0.265      3.51 1.50e- 3
> > glance(mod)
> # A tibble: 1 x 12
>   r.squared adj.r.squared sigma statistic  p.value    df logLik   AIC
>   BIC deviance df.residual  nobs
>       <dbl>         <dbl> <dbl>     <dbl>    <dbl> <dbl>  <dbl> <dbl>
> <dbl> <dbl>       <int> <int>
> 1     0.826         0.814  2.60      69.0 9.39e-12     2  -74.4  157.
>  163. 195.          29    32
> >
> 
> 
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
> 
> 
> 
> El mié, 19 may 2021 a las 4:40, Eric Concha M.
> (<ericconchamunoz using gmail.com>) escribió:
> 
> >
> > Hola chicos, una pregunta por favor, quizá alguien sabe ... tengo un
> > set de datos con missings y no lo puedo imputar con MICE, pero sí
> > con missForest. Mi problema es que MICE hace todo el trabajo de
> > calcular los parámetros del modelo de interés bajo el set de datos
> > imputados, las nuevas varianza, grados de libertad y así, con la
> > función pool() se obtienen esa información.
> >
> > Mi pregunta es: hay algo parecido a pool() de MICE para alguno de
> > los algoritmos que usan random forest como missforest o
> > missCompare, por ejemplo ? missforest hace un gran trabajo
> > obteniendo los datos faltantes, pero de lo que leí desde su viñeta,
> > no va más allá ... llevo buscando desde ayer, pero me ha ido mal.
> >
> > No quiero hacer el trabajo a mano pues me va a llevar mucho tiempo,
> > nosoy muy experto y tengo una alta probabilidad de equivocarme.
> >
> > Espero haber explicado bien mi necesidad.
> >
> > Saludos y gracias !!
> >
> > Eric.
> >
> > _______________________________________________
> > R-help-es mailing list
> > R-help-es using r-project.org
> > https://stat.ethz.ch/mailman/listinfo/r-help-es
> >
> 
> 



Más información sobre la lista de distribución R-help-es