[R-es] Resumen de R-help-es, Vol 187, Envío 10
Pedro Concejero Cerezo
pedro@concejerocerezo @end|ng |rom gm@||@com
Mar Nov 26 13:23:54 CET 2024
Ayer mandé esta respuesta pero parece que no llegó, parece mentira que
no recuerde utilizar la lista. Disculpas si sale repetida.
Javier, el paquete textreuse lo que hace es añadir metadatos de
pre-proceso a la lectura de ficheros de texto, y por tanto parte de
fichero. No lo conocía, pero leyendo
https://cran.r-project.org/web/packages/textreuse/vignettes/textreuse-introduction.html
verás que tanto TextReuseTextDocument como TextReuseTextCorpus tienen
como input rutas de sistema (a fichero -solo .txt? no sé, habría que
mirar; o a directorio, respectivamente).
En cambio el código que adjuntas lo que hace es generar dos objetos
(text1 y text2) y concatenar las palabras con paste.
Ese paquete menciona que permite manejar "corpora" del paquete tm. En
text mining, el proceso suele ser 1. generar un corpus 2. generar tokens
(pueden ser bi-tri-n-gramas) 3. generar matrices dfm 4. hacer cálculos
sobre ellas.
tm es quizás un poco engorroso, por lo que yo siempre recomiendo quanteda.
https://quanteda.io/articles/quickstart.html
Y en concreto para lo de medir distancias:
https://quanteda.io/reference/textstat_simil.html
Pero, oye, a lo mejor lo que te ha calculado te vale. No sé, como te
digo no aclaras el objeto de tu trabajo.
El 25/11/24 a las 12:00, r-help-es-request using r-project.org escribió:
> Envíe los mensajes para la lista R-help-es a
> r-help-es using r-project.org
>
> Para subscribirse o anular su subscripción a través de la WEB
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
> O por correo electrónico, enviando un mensaje con el texto "help" en
> el asunto (subject) o en el cuerpo a:
> r-help-es-request using r-project.org
>
> Puede contactar con el responsable de la lista escribiendo a:
> r-help-es-owner using r-project.org
>
> Si responde a algún contenido de este mensaje, por favor, edite la
> linea del asunto (subject) para que el texto sea mas especifico que:
> "Re: Contents of R-help-es digest...". Además, por favor, incluya en
> la respuesta sólo aquellas partes del mensaje a las que está
> respondiendo.
>
>
> Asuntos del día:
>
> 1. Problemas usando paquete textreuse (Javier Gómez Gonzalez)
>
> ----------------------------------------------------------------------
>
> Message: 1
> Date: Mon, 25 Nov 2024 05:38:59 +0100
> From: Javier Gómez Gonzalez<zaragatan using gmail.com>
> To: r-help-es<r-help-es using r-project.org>
> Subject: [R-es] Problemas usando paquete textreuse
> Message-ID:
> <CANVm79mAiM42PHRSPPrwbwj2UbTC97zHu0ks616Os+EHHh3VAg using mail.gmail.com>
> Content-Type: text/plain; charset="utf-8"
>
> Muy buenas:
>
> He encontrado el paquete textreuse y lo quiero utilizar para comparar dos
> archivos pdf.
>
> Me ha sido imposible cargar los archivos para utilizar las funciones
> TextReuseCorpus() o TextReuseTextDocument().
>
> En la documentación del paquete los archivos los cargan desde
>
> ¿Alguien sabe cómo se hace?
>
> He conseguido calcular la similitud de jaccard utilizando este paquete,
> pero para ello he empleado el siguiente código.
>
> library(pdftools)
>
> library(textreuse)
>
> text1 <- pdf_text("uno.pdf")
>
> text2 <- pdf_text("dos.pdf")
>
> full_text1 <- paste(text1, collapse = " ")
>
> full_text2 <- paste(text2, collapse = " ")
>
> a <- tokenize_words(full_text1)
>
> b <- tokenize_words(full_text2)
>
> jaccard_similarity(a, b)
>
>
> Gracias
>
> [[alternative HTML version deleted]]
>
>
>
>
> ------------------------------
>
> Subject: Pié de página del digest
>
> _______________________________________________
> R-help-es mailing list
> R-help-es using r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
> ------------------------------
>
> Fin de Resumen de R-help-es, Vol 187, Envío 10
> **********************************************
--
*Pedro Concejero
E-mail: pedro.concejerocerezo using gmail.com
skype: pedro.concejero
twitter @ConcejeroPedro <https://twitter.com/ConcejeroPedro>
linkedin pedroconcejero <http://www.linkedin.com/in/pedroconcejero/es>
eRReRo feliz, me puedes encontrar en gRupo R madRid
<http://madrid.r-es.org/?s=concejero&searchsubmit.x=21&searchsubmit.y=13> *
[[alternative HTML version deleted]]
Más información sobre la lista de distribución R-help-es