[R-es] Loop sobre muchos data frames
Jorge I Velez
jorgeivanvelez en gmail.com
Vie Abr 10 07:15:02 CEST 2015
Oscar,
Una forma de trabajar con este tipo de archivos es utilizando listas:
# directorio del proyecto
setwd('~/proyecto')
# archivos de texto
l <- list.files(pattern = '.txt')
# procesamiento
txt <- vector('list', length = length(l))
for(i in seq_along(txt)){
txt[[i]] <- Corpus(VectorSource(l[i]))
}
# para acceder a la informacion del primero archivo, solo debes escribir
txt[[1]]
Espero sea de utilidad.
Saludos,
Jorge.-
2015-04-10 14:14 GMT+10:00 Oscar Benitez <oscar.benitez1962 en gmail.com>:
> Hola a todos!
> Estoy en un proyecto de text mining y por razones de los recursos con que
> cuento tuve que separar los archivos de texto de input del proyecto en
> muchos archivos pequeños.
> Luego de transformar cada uno de estos archivos en un corpus separado,
> puedo aplicar limpieza sobre cada corpus, buscar n-gramas, construir cada
> termDocumentMatrix y finalmente reunir todo en una sola TDM.
>
> Pero estoy atorado en el paso de transformar cada uno de los archivos en
> corpus mediante un loop. Es decir que en lugar de hacer esto infinitas
> veces:
>
> #Librerias necesarias
> library(tm)
>
> corpus_001<-Corpus(VectorSource(qBlog001))
> corpus_002<-Corpus(VectorSource(qBlog002))
> corpus_003<-Corpus(VectorSource(qBlog003))
> .........
> corpus_150<-Corpus(VectorSource(qBlog150))
> ........
>
> quisiera poder armar un loop que haga el trabajo, como por ejemplo
>
>
>
> #lista con los nombres que quiero para cada corpus
> c_names <- paste("corpus_",formatC(seq(length(bNames)),
> width=3, flag="0"), sep="")
>
> donde bNames es la lista de los df que tengo cargados "qBlog001"
> "qBlog002"..."qBlog150"...
>
> algo así es lo que tengo en mente:
>
> for (i in bNames) {
> for (j in c_names) {
> j<- Corpus(VectorSource(i))
> }
> }
>
> Pero no funciona, he probado con lapply, con sapply, con llply de la
> librería (plyr) y no encuentro la manera de hacerlo..
> Cualquier sugerencia sera bienvenida!
> Muchas gracias por adelantado!
>
>
> --
> Oscar Benitez
>
> [[alternative HTML version deleted]]
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
[[alternative HTML version deleted]]
Más información sobre la lista de distribución R-help-es