[R-es] Stopwords: Topic modelling con LDA
Carlos Ortega
co| @end|ng |rom qu@||tyexce||ence@e@
Mar Abr 28 12:53:39 CEST 2020
Hola,
Yo de primeras los quitaría para qué otros topics aparecen.
Y también aplicaría tf-idf a tus comentarios. Con tf-idf seguro que
desaparecen como relevantes esas palabras comunes, será otra forma de
confirmar que es buena la decisión de hacer el análisis eliminandolas.
Saludos,
Carlos Ortega
www.qualityecellence.es
El mar., 28 abr. 2020 a las 11:44, <miriam.alzate using unavarra.es> escribió:
> Buenos días,
>
> Estoy realizando un análisis de topic models con el método LDA. En
> principio, he quitado del análisis las palabras "stopwords" universales. A
> la hora de ver los topics y sus palabras más frecuentes encuentro que son
> muy similares y hay palabras que aparecen en todos los topics. Los textos
> que estoy analizando son opiniones de consumidores sobre una categoría
> concreta de cosméticos, por lo que la temática es muy concreta y puede ser
> que en todas las opiniones se hable de cosas similares.
>
> Mi pregunta es, ¿incluiríais estas palabras que me aparecen en todos los
> topics o casi todos como stopwords? ¿Hay alguna forma de refinar más el
> análisis y que haya más diferencias entre topics?
>
> Este es el código que estoy usando:
>
> Reviews_dtm <-text_df12star %>%
> unnest_tokens(word, text) %>%
> anti_join(stop_words)%>%
> count(Brand, word) %>%
> cast_dtm(Brand, word, n)
>
>
> Reviews_lda <- LDA(Reviews12_dtm, k = 15, control = list(seed = 2016))
>
> Un saludo
>
> Miriam
>
> _______________________________________________
> R-help-es mailing list
> R-help-es using r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
--
Saludos,
Carlos Ortega
www.qualityexcellence.es
[[alternative HTML version deleted]]
Más información sobre la lista de distribución R-help-es