[R-es] Procesamiento de Lenguaje Natural

Rubén Fernández Casal rubenfcasal en gmail.com
Mar Oct 3 21:56:14 CEST 2017


Hola Jose,
Yo también estoy interesado en el tema, especialmente en el caso de
castellano. Algunos enlaces:
http://r-es.org/tiki/GITPLN#main&ui-page=cssmenu0-4
https://cran.r-project.org/web/views/NaturalLanguageProcessing.html
http://156.35.138.29/

Por si resulta de utilidad, un TFM introductorio para el tratamiento de
texto en inglés es este
http://eio.usc.es/pub/mte/descargas/ProyectosFinMaster/Proyecto_1475.pdf.

Un saludo, Rubén.

El 3/10/2017 8:43, "Gilsanz, Jose Luis" <jluis.gilsanz en eu.jll.com> escribió:

> Hola:
>
> Me gustaría que me recomendarais paquetes o alguna forma de "hincarle el
> diente" para empezar a investigar en la siguiente cuestión.
>
> El proyecto trata de que, a partir de un numero grande de documentos pdf
> que contienen, básicamente, Notas Simples del Registro de la Propiedad
> deseamos extraer para cada uno de esos documentos una serie de ítems de
> información, a saber:
> -Finca Registral
> -Registro de la Propiedad
> -Referencia Catastral (si la hubiera)
> -IDUFIR o CUR (identificadores únicos de finca registral, si las hubiera)
>
> Los documentos provienen de muy diversas fuentes por lo que la información
> no se podría extraer con minería de textos "pura" ya que, por ejemplo, la
> finca registral puede venir especificada como:
> -FINCA DE TOLEDO Nº: XXXXXXX
> -Nº Finca: FINCA DE PILAR DE LA HORADADA Nº: XXXXXXX
> -Finca registral: XXXXXXX
> -REGISTRAL XXXXXX
> -FINCA DE MARBELLA (Sección 03) Nº: XXXXXX
> -Finca: XXXXXX
>
> Siendo un total profano en la materia, creo que se puede definir como un
> proyecto a tratar usando un Procesamiento de Lenguaje Natural, en tanto que
> se necesita de un análisis semántico de los textos vista la variedad de
> formas que hay de expresar el mismo concepto con textos distintos.
> Desconozco si existe algún tipo de proceso de Aprendizaje Automático que se
> pueda también aplicar para que el proceso vaya "aprendiendo" como se puede
> ir encontrando la información de los distintos ítems de forma
> complementaria al PLN.
>
> He localizado esta web:  https://cran.r-project.org/web/views/
> NaturalLanguageProcessing.html en la que hay multitud de
> paquetes/herramientas para análisis de este tipo pero me gustaría que me
> indicarais cual o cuales creéis que son los más apropiados para este caso
> concreto o si tengo que enfocar el tema por otro lado completamente
> distinto.
>
> Mil gracias por vuestros consejos.
>
> Un saludo
>
>
> JLL Valoraciones, S.A.
> Registration number: A-28806222.
> Registered Office: Pº de la Castellana, 130 - 1ª ; 28046 Madrid
>
> This e-mail is for the use of the intended recipient(s) only. If you have
> received this e-mail in error, please notify the sender immediately and
> then delete it. If you are not the intended recipient, you must not use,
> disclose or distribute this e-mail without the author's prior permission.
> We have taken precautions to minimise the risk of transmitting software
> viruses, but we advise you to carry out your own virus checks on any
> attachment to this message. We cannot accept liability for any loss or
> damage caused by software viruses. If you are the intended recipient and
> you do not wish to receive similar electronic messages from us in future
> then please respond to the sender to this effect
>
>         [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es