[R-es] Resumen de R-help-es, Vol 187, Envío 10

Pedro Concejero Cerezo pedro@concejerocerezo @end|ng |rom gm@||@com
Mar Nov 26 13:23:54 CET 2024


Ayer mandé esta respuesta pero parece que no llegó, parece mentira que 
no recuerde utilizar la lista. Disculpas si sale repetida.

Javier, el paquete textreuse lo que hace es añadir metadatos de 
pre-proceso a la lectura de ficheros de texto, y por tanto parte de 
fichero. No lo conocía, pero leyendo

https://cran.r-project.org/web/packages/textreuse/vignettes/textreuse-introduction.html

verás que tanto TextReuseTextDocument como TextReuseTextCorpus tienen 
como input rutas de sistema (a fichero -solo .txt? no sé, habría que 
mirar; o a directorio, respectivamente).

En cambio el código que adjuntas lo que hace es generar dos objetos 
(text1 y text2) y concatenar las palabras con paste.

Ese paquete menciona que permite manejar "corpora" del paquete tm. En 
text mining, el proceso suele ser 1. generar un corpus 2. generar tokens 
(pueden ser bi-tri-n-gramas) 3. generar matrices dfm 4. hacer cálculos 
sobre ellas.

tm es quizás un poco engorroso, por lo que yo siempre recomiendo quanteda.

https://quanteda.io/articles/quickstart.html

Y en concreto para lo de medir distancias:

https://quanteda.io/reference/textstat_simil.html


Pero, oye, a lo mejor lo que te ha calculado te vale. No sé, como te 
digo no aclaras el objeto de tu trabajo.

El 25/11/24 a las 12:00, r-help-es-request using r-project.org escribió:
> Envíe los mensajes para la lista R-help-es a
> 	r-help-es using r-project.org
>
> Para subscribirse o anular su subscripción a través de la WEB
> 	https://stat.ethz.ch/mailman/listinfo/r-help-es
>
> O por correo electrónico, enviando un mensaje con el texto "help" en
> el asunto (subject) o en el cuerpo a:
> 	r-help-es-request using r-project.org
>
> Puede contactar con el responsable de la lista escribiendo a:
> 	r-help-es-owner using r-project.org
>
> Si responde a algún contenido de este mensaje, por favor, edite la
> linea del asunto (subject) para que el texto sea mas especifico que:
> "Re: Contents of R-help-es digest...". Además, por favor, incluya en
> la respuesta sólo aquellas partes del mensaje a las que está
> respondiendo.
>
>
> Asuntos del día:
>
>     1. Problemas usando paquete textreuse (Javier Gómez Gonzalez)
>
> ----------------------------------------------------------------------
>
> Message: 1
> Date: Mon, 25 Nov 2024 05:38:59 +0100
> From: Javier Gómez Gonzalez<zaragatan using gmail.com>
> To: r-help-es<r-help-es using r-project.org>
> Subject: [R-es] Problemas usando paquete textreuse
> Message-ID:
> 	<CANVm79mAiM42PHRSPPrwbwj2UbTC97zHu0ks616Os+EHHh3VAg using mail.gmail.com>
> Content-Type: text/plain; charset="utf-8"
>
> Muy buenas:
>
> He encontrado el paquete textreuse y lo quiero utilizar para comparar dos
> archivos pdf.
>
> Me ha sido imposible cargar los archivos para utilizar las funciones
> TextReuseCorpus() o TextReuseTextDocument().
>
> En la documentación del paquete los archivos los cargan desde
>
> ¿Alguien sabe cómo se hace?
>
> He conseguido calcular la similitud de jaccard utilizando este paquete,
> pero para ello he empleado el siguiente código.
>
> library(pdftools)
>
> library(textreuse)
>
>   text1 <- pdf_text("uno.pdf")
>
> text2 <- pdf_text("dos.pdf")
>
> full_text1 <- paste(text1, collapse = " ")
>
> full_text2 <- paste(text2, collapse = " ")
>
> a <- tokenize_words(full_text1)
>
> b <- tokenize_words(full_text2)
>
> jaccard_similarity(a, b)
>
>
> Gracias
>
> 	[[alternative HTML version deleted]]
>
>
>
>
> ------------------------------
>
> Subject: Pié de página del digest
>
> _______________________________________________
> R-help-es mailing list
> R-help-es using r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
> ------------------------------
>
> Fin de Resumen de R-help-es, Vol 187, Envío 10
> **********************************************
-- 
*Pedro Concejero
E-mail: pedro.concejerocerezo using gmail.com
skype: pedro.concejero
twitter @ConcejeroPedro <https://twitter.com/ConcejeroPedro>
linkedin pedroconcejero <http://www.linkedin.com/in/pedroconcejero/es>
eRReRo feliz, me puedes encontrar en gRupo R madRid 
<http://madrid.r-es.org/?s=concejero&searchsubmit.x=21&searchsubmit.y=13> *

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es