[R-es] Stopwords: Topic modelling con LDA
Pedro Concejero
pedro@concejerocerezo @end|ng |rom gm@||@com
Mar Abr 28 12:54:21 CEST 2020
Hola Miriam,
Si tu propósito es extraer tópicos de tu LDA, no suele ser de interés
que salgan muchas palabras comunes entre los tópicos, así que a tu pregunta
¿incluiríais estas palabras como stopwords?
Yo te diría que sí, o alternativamente que utilices un filtrado por
tf-idf que te quitará esas palabras demasiado comunes entre documentos.
Y ante la pregunta de si quieres que salgan más diferencias entre topics
hay muchas alternativas. Entre ellas:
- utilizar bigramas (o n-gramas, con un grado creciente de complejidad)
- aumentar el k (aunque tú estás utilizando ya 15...). ¿Cuántos
documentos / vocabulario estás analizando?
También está la estrategia de "tunear" los parámetros de LDA...
Saludos,
Pedro
El 28/4/20 a las 12:00, r-help-es-request using r-project.org escribió:
> [R-es] Stopwords: Topic modelling con LDA
--
*Pedro Concejero
E-mail: pedro.concejerocerezo using gmail.com
<mailto:pedro.concejerocerezo using gmail.com>
skype: pedro.concejero
twitter @ConcejeroPedro <https://twitter.com/ConcejeroPedro>
linkedin pedroconcejero <http://www.linkedin.com/in/pedroconcejero/es>
eRReRo feliz, me puedes encontrar en gRupo R madRid
<http://madrid.r-es.org/?s=concejero&searchsubmit.x=21&searchsubmit.y=13> *
[[alternative HTML version deleted]]
Más información sobre la lista de distribución R-help-es