[R-es] (sin asunto)
Ruben Tobalina Ramirez
|@gr|m@e@cr|t@ @end|ng |rom gm@||@com
Jue Jul 10 11:14:04 CEST 2025
Buenos días.
Muchas gracias de nuevo por el interés Javier. Está mañana tuve la idea
feliz y lo hice tal como dices, pero luego tuve una nueva idea feliz y me
di cuenta que el texto que está dentro del *span* está siempre dentro de
unos paréntesis Así que hice un sencillo gsub() borrando todo lo que hay
dentro de los susodichos paréntesis y listo.
A veces es más sencillo de lo que parece. :D
muchas gracias por todo. un saludo
El jue, 10 jul 2025 a las 10:54, Javier Marcuzzi (<
javier.ruben.marcuzzi using gmail.com>) escribió:
> Estimado Rubén
>
> No importa, el código es algo más largo pero no tanto, sería algo como :
>
> Si existe lo siguiente
> Borrar esto
> So no existe
> No borrar nada
>
> Para mi gusto no iría por expresiones regulares, por si las dudas en algún
> caso borro de más, hay que saber dominarlas, pero también son una
> alternativa.
>
> Aunque si yo quiero, para el webscraping, puedo crear código para
> enloquecer a cualquier análisis, por lo cuál, es posible que lo que usted
> analiza tenga algo para “complicarle la vida”.
>
> Javier Marcuzzi
>
> El 9 jul 2025, a las 6:01 p. m., Ruben Tobalina Ramirez <
> lagrimaescrita using gmail.com> escribió:
>
> Buenas noches Javier,
>
> Gracias por la respuesta, yo también lo había pensado. Creo que no me vale
> porque el span dentro del h2 no se repite en todos los casos.
>
> Rubén.
>
> El dc., 9 de jul. 2025, 22:55, Javier Marcuzzi <
> javier.ruben.marcuzzi using gmail.com> va escriure:
>
>> Buenas tardes Rubén
>>
>> Lo que usted desea no se puede, pero hay una solución. Primero, si
>> selecciona el h2 lo que está dentro de esta etiqueta se selecciona.
>> Segundo, lo que está mal es la selección, sin embargo, puede solucionar
>> esta buscando y borrando el código <span clas…. , supuestamente este se
>> podría repetir en todos los datos, por lo cuál el localizarlo y eliminarlo
>> sería una solución.
>>
>> Por lo cuál al restallado de rvest tendría que procesarlo con otro script
>> en R que limpie el código repetido en todos los registros.
>>
>> ¿Esa solución le es útil?
>>
>> Javier Marcuzzi
>>
>> > El 9 jul 2025, a las 8:39 a. m., Ruben Tobalina Ramirez <
>> lagrimaescrita using gmail.com> escribió:
>> >
>> > Hola, buenas tardes,
>> >
>> > Estoy usando *rvest* para hacer webscraping y me surge una duda con el
>> > siguiente codigo:
>> >
>> > *x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die
>> > Autobahnpolizei)</span>\n</h2>'*
>> > *x %>% read_html() %>% html_nodes(xpath = "//h2")*
>> >
>> > Me gustaria quedarme con lo que contiene el tag *h2*, pero quitando
>> *span*.
>> > En este ejemplo seria solo *Alerta Cobra. *He probado usando los
>> > típicos operadores como *!* o *:not(span)*, pero no ha resultado bien.
>> >
>> > Una orientación de como hacerlo me vendría bien, muchas gracias de
>> antemano.
>> >
>> > --
>> > Rubén.
>> >
>> > [[alternative HTML version deleted]]
>> >
>> > _______________________________________________
>> > R-help-es mailing list
>> > R-help-es using r-project.org
>> > https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>>
>
--
Rubén.
[[alternative HTML version deleted]]
Más información sobre la lista de distribución R-help-es