[R-es] Minería de texto

ANDRÉS FELIPE FLÓREZ RIVERA andreselestadistico en hotmail.com
Vie Oct 26 02:34:52 CEST 2012


Cordial saludo, adjunto el código en txt ya que en el correo pasado no se anexo bien.
Gracias!
Saludos,

ANDRÉS FELIPE FLÓREZ RIVERA 

From: jorgeivanvelez en gmail.com
Date: Fri, 26 Oct 2012 10:43:36 +1100
Subject: Re: [R-es] Minería de texto
To: andreselestadistico en hotmail.com
CC: r-help-es en r-project.org

Hola Andres,
Desafortunadamente el codigo es muy dificil de leer y eso hace aun mas dificil ayudarte.  Es posible que lo envies de nuevo (utilizando espacio entre lineas y entre palabras?) o que lo alojes en algun sitio de internet, i.e., Dropbox?


Saludos,Jorge.-



On Fri, Oct 26, 2012 at 10:41 AM, ANDRÉS FELIPE FLÓREZ RIVERA <> wrote:




Cordial Saludo

Actualmente estoy realizando una función para gráficar una nube de palabras el código que tengo es el siguiente:

library(twitteR)library(tm)library(wordcloud)library(RXKCD)library(RColorBrewer)

tweets=searchTwitter('@afflorezr', n=1500)



 generateCorpus= function(tweets,my.stopwords=c(),min.freq){  #Install the textmining library  require(tm)  require(wordcloud)  tw.df=twListToDF(tweets)  RemoveAtPeople <- function(x){gsub("@\\w+", "",x)}  df<- as.vector(sapply(tw.df$text, RemoveAtPeople))  #The following is cribbed and seems to do what it says on the can  tw.corpus = Corpus(VectorSource(df))  tw.corpus = tm_map(tw.corpus, function(x) iconv(enc2utf8(x), sub = "byte"))  tw.corpus = tm_map(tw.corpus, tolower)    tw.corpus = tm_map(tw.corpus, removePunctuation)  tw.corpus = tm_map(tw.corpus, function(x) removeWords(x, c(stopwords("spanish"),"rt")))  tw.corpus = tm_map(tw.corpus, removeWords, my.stopwords)  tw.corpus = tm_map(tw.corpus, stripWhitespace)  sw <- readLines("stopwords.es.txt",encoding="UTF-8")  sw = iconv(sw, to="ASCII//TRANSLIT")  tw.corpus = tm_map(tw.corpus, removeWords, sw)  doc.m = TermDocumentMatrix(tw.corpus, control = list(minWordLength = 2))  dm = as.matrix(doc.m)  # calculate the frequency of words  v = sort(rowSums(dm), decreasing=TRUE)  d = data.frame(word=names(v), freq=v)  #Generate the wordcloud  pal2 <- brewer.pal(8,"Dark2")  wc=wordcloud(d$word, d$freq, min.freq=min.freq, scale=c(8,.2),               max.words=Inf, random.order=FALSE, rot.per=.15, colors=pal2)  wc}##Generate an image file of the wordcloudpng("gráfico.png", width=1280,height=1600)generateCorpus(tweets,'afflorezr',7)dev.off()



El problema que tengo es que las palabras acentuadas, es decir, que la que llevan tildes como "más" me salen diferentes algo como "â", agradezco la ayuda que me puedan brindar para que las palabras salgan correctamente en español.





Saludos,



ANDRÉS FELIPE FLÓREZ RIVERA





        [[alternative HTML version deleted]]




_______________________________________________

R-help-es mailing list

R-help-es en r-project.org

https://stat.ethz.ch/mailman/listinfo/r-help-es



 		 	   		  
------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20121025/7e3d677c/attachment-0001.html>
------------ próxima parte ------------
An embedded and charset-unspecified text was scrubbed...
Name: codigo.txt
URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20121025/7e3d677c/attachment-0001.txt>


Más información sobre la lista de distribución R-help-es