[R-es] Stopwords: Topic modelling con LDA

miri@m@@iz@te m@iii@g oii u@@v@rr@@es miri@m@@iz@te m@iii@g oii u@@v@rr@@es
Mar Abr 28 11:43:50 CEST 2020


Buenos días,

Estoy realizando un análisis de topic models con el método LDA. En
principio, he quitado del análisis las palabras "stopwords" universales. A
la hora de ver los topics y sus palabras más frecuentes encuentro que son
muy similares y hay palabras que aparecen en todos los topics. Los textos
que estoy analizando son opiniones de consumidores sobre una categoría
concreta de cosméticos, por lo que la temática es muy concreta y puede ser
que en todas las opiniones se hable de cosas similares.

Mi pregunta es, ¿incluiríais estas palabras que me aparecen en todos los
topics o casi todos como stopwords? ¿Hay alguna forma de refinar más el
análisis y que haya más diferencias entre topics?

Este es el código que estoy usando:

Reviews_dtm <-text_df12star %>%
  unnest_tokens(word, text) %>%
  anti_join(stop_words)%>%
  count(Brand, word) %>%
  cast_dtm(Brand, word, n)


Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016))

Un saludo

Miriam



Más información sobre la lista de distribución R-help-es