[R-es] Problemas usando paquete textreuse

Javier Gómez Gonzalez z@r@g@t@n @end|ng |rom gm@||@com
Lun Nov 25 05:38:59 CET 2024


Muy buenas:

He encontrado el paquete textreuse y lo quiero utilizar para comparar dos
archivos pdf.

Me ha sido imposible cargar los archivos para utilizar las funciones
TextReuseCorpus() o TextReuseTextDocument().

En la documentación del paquete los archivos los cargan desde

¿Alguien sabe cómo se hace?

He conseguido calcular la similitud de jaccard utilizando este paquete,
pero para ello he empleado el siguiente código.

library(pdftools)

library(textreuse)

 text1 <- pdf_text("uno.pdf")

text2 <- pdf_text("dos.pdf")

full_text1 <- paste(text1, collapse = " ")

full_text2 <- paste(text2, collapse = " ")

a <- tokenize_words(full_text1)

b <- tokenize_words(full_text2)

jaccard_similarity(a, b)


Gracias

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es