[R-es] (sin asunto)

Ruben Tobalina Ramirez |@gr|m@e@cr|t@ @end|ng |rom gm@||@com
Jue Jul 10 11:43:20 CEST 2025


uau, esto si es magia. Ese uso del text() no lo conocía, pensaba que cogia
también el texto del span.

Muchas gracias, un saludo

El jue, 10 jul 2025 a las 11:24, Carlos Ortega (<cof using qualityexcellence.es>)
escribió:

> Hola,
>
> ¿Qué tal?
> No sé si ya está resuelto el problema...
>
> Una alternativa puede ser esta.
>
> #-----------------
> > # Cargar la librería rvest
> > library(rvest)
> >
> > # Definir el HTML de ejemplo
> > x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die
> Autobahnpolizei)</span></h2>'
> >
> > # Parsear el HTML
> > html_content <- read_html(x)
> >
> > # Extraer solo el nodo de texto dentro de <h2> que no esté en <span>
> > result <- html_content %>%
> +   html_node(xpath = "//h2/text()") %>%
> +   html_text(trim = TRUE)
> >
> > # Mostrar el resultado
> > print(result)
> [1] "Alerta Cobra"
> #-----------------
>
> Gracias,
> Carlos Ortega
> www.qualityexcellence.es
>
> El jue, 10 jul 2025 a las 11:14, Ruben Tobalina Ramirez (<
> lagrimaescrita using gmail.com>) escribió:
>
>> Buenos días.
>>
>> Muchas gracias de nuevo por el interés Javier. Está mañana tuve la idea
>> feliz y lo hice tal como dices, pero luego tuve una nueva idea feliz y me
>> di cuenta que el texto que está dentro del *span* está siempre dentro de
>> unos paréntesis Así que hice un sencillo gsub() borrando todo lo que hay
>> dentro de los susodichos paréntesis y listo.
>>
>> A veces es más sencillo de lo que parece. :D
>>
>> muchas gracias por todo. un saludo
>>
>> El jue, 10 jul 2025 a las 10:54, Javier Marcuzzi (<
>> javier.ruben.marcuzzi using gmail.com>) escribió:
>>
>> > Estimado Rubén
>> >
>> > No importa, el código es algo más largo pero no tanto, sería algo como :
>> >
>> > Si existe lo siguiente
>> > Borrar esto
>> > So no existe
>> > No borrar nada
>> >
>> > Para mi gusto no iría por expresiones regulares, por si las dudas en
>> algún
>> > caso borro de más, hay que saber dominarlas, pero también son una
>> > alternativa.
>> >
>> > Aunque si yo quiero, para el webscraping, puedo crear código para
>> > enloquecer a cualquier análisis, por lo cuál, es posible que lo que
>> usted
>> > analiza tenga algo para “complicarle la vida”.
>> >
>> > Javier Marcuzzi
>> >
>> > El 9 jul 2025, a las 6:01 p. m., Ruben Tobalina Ramirez <
>> > lagrimaescrita using gmail.com> escribió:
>> >
>> > Buenas noches Javier,
>> >
>> > Gracias por la respuesta, yo también lo había pensado. Creo que no me
>> vale
>> > porque el span dentro del h2 no se repite en todos los casos.
>> >
>> > Rubén.
>> >
>> > El dc., 9 de jul. 2025, 22:55, Javier Marcuzzi <
>> > javier.ruben.marcuzzi using gmail.com> va escriure:
>> >
>> >> Buenas tardes Rubén
>> >>
>> >> Lo que usted desea no se puede, pero hay una solución. Primero, si
>> >> selecciona el h2 lo que está dentro de esta etiqueta se selecciona.
>> >> Segundo, lo que está mal es la selección, sin embargo, puede solucionar
>> >> esta buscando y borrando el código <span clas…. , supuestamente este se
>> >> podría repetir en todos los datos, por lo cuál el localizarlo y
>> eliminarlo
>> >> sería una solución.
>> >>
>> >> Por lo cuál al restallado de rvest tendría que procesarlo con otro
>> script
>> >> en R que limpie el código repetido en todos los registros.
>> >>
>> >> ¿Esa solución le es útil?
>> >>
>> >> Javier Marcuzzi
>> >>
>> >> > El 9 jul 2025, a las 8:39 a. m., Ruben Tobalina Ramirez <
>> >> lagrimaescrita using gmail.com> escribió:
>> >> >
>> >> > Hola, buenas tardes,
>> >> >
>> >> > Estoy usando *rvest*  para hacer webscraping y me surge una duda con
>> el
>> >> > siguiente codigo:
>> >> >
>> >> > *x <- '<h2>Alerta Cobra <span class="title">(Alarm für Cobra 11 - Die
>> >> > Autobahnpolizei)</span>\n</h2>'*
>> >> > *x %>% read_html() %>% html_nodes(xpath = "//h2")*
>> >> >
>> >> > Me gustaria quedarme con lo que contiene el tag *h2*, pero quitando
>> >> *span*.
>> >> > En este ejemplo seria solo *Alerta Cobra. *He probado usando los
>> >> > típicos operadores como *!* o *:not(span)*, pero no ha resultado
>> bien.
>> >> >
>> >> > Una orientación de como hacerlo me vendría bien, muchas gracias de
>> >> antemano.
>> >> >
>> >> > --
>> >> > Rubén.
>> >> >
>> >> >       [[alternative HTML version deleted]]
>> >> >
>> >> > _______________________________________________
>> >> > R-help-es mailing list
>> >> > R-help-es using r-project.org
>> >> > https://stat.ethz.ch/mailman/listinfo/r-help-es
>> >>
>> >>
>> >
>>
>> --
>> Rubén.
>>
>>         [[alternative HTML version deleted]]
>>
>> _______________________________________________
>> R-help-es mailing list
>> R-help-es using r-project.org
>> https://stat.ethz.ch/mailman/listinfo/r-help-es
>>
>
>
> --
> Saludos,
> Carlos Ortega
> www.qualityexcellence.es
>


-- 
Rubén.

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es