[R-es] Descarga ficheros web desde R

Javier Marcuzzi j@v|er@ruben@m@rcuzz| @end|ng |rom gm@||@com
Vie Abr 8 00:40:50 CEST 2022


Estimado Jorge

Estamos diciendo lo mismo pero de forma diferente, el correo tiene una dirección, uno la visita por GET o por url.

Usted dice que View(post(url)), y yo a eso podría sumar lo que tomo de una captura cualquiera de internet y que no es lenguaje R.


En ambos casos, se le envían parámetros al servidor y hay respuesta de la forma  https://www.example.com/index.html?name1=value1&name2=value2 <https://www.example.com/index.html?name1=value1&name2=value2>

Cuándo yo leo la siguiente dirección no veo parámetros enviados por Post, lógicamente que el servidor puede crear un parámetro como ser JWT para cada usuario y diferentes posibilidades.
>> http://serviciosede.mineco.gob.es/Indeco/DescargaArchivo.aspx?estadisticas=True&tipo=1 <http://serviciosede.mineco.gob.es/Indeco/DescargaArchivo.aspx?estadisticas=True&tipo=1>




> El 7 abr. 2022, a las 18:01, Jorge Pradas <jorpramo using gmail.com> escribió:
> 
> Lo siento pero discrepo, una dirección puedes usarla para hacer un get o bien un post si lleva parámetros adicionales. En este caso no pasamos porque los parámetros por defecto serán los del propio documento.
> De hecho si haces un view(post(url)) verás todo lo que devuelve y entre ello los parámetros ocultos.
> El caso es que con post funciona y con get no. ;)
> 
> Jorge
> 
> El jue., 7 abr. 2022 22:54, Javier Marcuzzi <javier.ruben.marcuzzi using gmail.com <mailto:javier.ruben.marcuzzi using gmail.com>> escribió:
> Estimados
> 
> El lugar de referencia es una dirección, esta es GET, no tiene campo POST, aunque, yo no mire como está realizado, desconocía el problema de asp, aunque esto son estados para identificar el usuario y trabajar entre las solicitudes y respuestas, al respecto, cada vez que yo tuve problemas utilicé selenium desde R, se instala como cualquier paquete en R y mi opción preferida es Firefox, es lento, pero para el servidor lo realiza una persona desde Firefox, ejecuta javascript y demás cosas evitando inconvenientes.
> 
> Javier Rubén Marcuzzi
> 
> 
>> El 7 abr. 2022, a las 12:14, Jorge Pradas <jorpramo using gmail.com <mailto:jorpramo using gmail.com>> escribió:
>> 
>> No soy muy experto en paginas asp.net <http://asp.net/> pero no funciona como una pagina normal, es por eso que tienes que hacer un post, en este caso ha sido fácil porque en el envío de este formulario no hacía falta pasar ningún parámetro, porque imagino que el único fichero de descarga que ofrece ese link es el que queria descargar el compañero, sino en la llamada post se debería haber completado con parámetros.
>> 
>> Aquí tienen algo más de información que he podido encontrar:
>> https://medium.com/@simranpandey97/web-scraper-for-aspx-form-based-webpages-b8828085e4a2 <https://medium.com/@simranpandey97/web-scraper-for-aspx-form-based-webpages-b8828085e4a2>
>> 
>> Jorge
>> 
>> 
>> El jue, 7 abr 2022 a las 15:29, Javier Marcuzzi (<javier.ruben.marcuzzi using gmail.com <mailto:javier.ruben.marcuzzi using gmail.com>>) escribió:
>> Estimados
>> 
>> La dirección es GET, no POST, tendría que andar en principio, si me ocurre que podría intentar con https://cran.r-project.org/web/packages/rvest/index.html <https://cran.r-project.org/web/packages/rvest/index.html> , posiblemente hay algo interno que se soluciona.
>> 
>> Javier Rubén Marcuzzi
>> 
>> > El 7 abr. 2022, a las 08:26, Jorge Pradas <jorpramo using gmail.com <mailto:jorpramo using gmail.com>> escribió:
>> > 
>> >  Hola!
>> > 
>> > Creo que con GET no va, con POST mejor y sacando el content. Prueba así, a
>> > mi me ha ido.
>> > 
>> > library("httr")
>> > UrlBase <-  "
>> > http://serviciosede.mineco.gob.es/Indeco/DescargaArchivo.aspx?estadisticas=True&tipo=1 <http://serviciosede.mineco.gob.es/Indeco/DescargaArchivo.aspx?estadisticas=True&tipo=1>
>> > "
>> > file=POST(UrlBase)[["content"]]
>> > writeBin(as.raw(file),
>> >         con = "./filename.zip")
>> > 
>> > un saludo!
>> > Jorge
>> > 
>> > El jue, 7 abr 2022 a las 11:50, Blas (<b1 using famovil.es <mailto:b1 using famovil.es>>) escribió:
>> > 
>> >> Buenos días,
>> >> 
>> >> me encuentro con un problema que imagino
>> >> es muy común pero no veo solución aparente en internet. No tengo mucha
>> >> idea de páginas "aspx" ni "javascript" pero necesito descargar datos
>> >> públicos desde la siguiente dirección:
>> >> http://serviciosede.mineco.gob.es/Indeco/ <http://serviciosede.mineco.gob.es/Indeco/>.
>> >> En concreto necesito descargar el fichero completo con todas las series
>> >> que está en el enlace "Descarga completa de BDSICE". Con el debugger
>> >> del navegador me dice que está bajo la URL "
>> >> http://serviciosede.mineco.gob.es/Indeco/DescargaArchivo.aspx?estadisticas=True&tipo=1 <http://serviciosede.mineco.gob.es/Indeco/DescargaArchivo.aspx?estadisticas=True&tipo=1>
>> >> "
>> >> 
>> >> 
>> >> 
>> >> He probado a ejecutar el siguiente código:
>> >> 
>> >> 
>> >> 
>> >> 
>> >> 
>> >> library("httr")
>> >> 
>> >> UrlBase <-  "
>> >> http://serviciosede.mineco.gob.es/Indeco/DescargaArchivo.aspx?estadisticas=True&tipo=1 <http://serviciosede.mineco.gob.es/Indeco/DescargaArchivo.aspx?estadisticas=True&tipo=1>
>> >> "
>> >> 
>> >> download.file(UrlBase, "./BaseDatos.zip")
>> >> 
>> >> 
>> >> 
>> >> 
>> >> 
>> >> 
>> >> 
>> >> 
>> >> 
>> >> Y también el código:
>> >> 
>> >> 
>> >> 
>> >> 
>> >> 
>> >> library("httr")
>> >> 
>> >> UrlBase <-  "
>> >> http://serviciosede.mineco.gob.es/Indeco/DescargaArchivo.aspx?estadisticas=True&tipo=1 <http://serviciosede.mineco.gob.es/Indeco/DescargaArchivo.aspx?estadisticas=True&tipo=1>
>> >> "
>> >> 
>> >> get(UrlBase)
>> >> 
>> >> 
>> >> 
>> >> 
>> >> 
>> >> 
>> >> 
>> >> Ninguno de los métodos me ha funcionado.
>> >> 
>> >> Alguien que me oriente.
>> >> 
>> >> 
>> >> 
>> >> 
>> >> 
>> >> Saludos.
>> >> 
>> >> Blas.
>> >>        [[alternative HTML version deleted]]
>> >> 
>> >> _______________________________________________
>> >> R-help-es mailing list
>> >> R-help-es using r-project.org <mailto:R-help-es using r-project.org>
>> >> https://stat.ethz.ch/mailman/listinfo/r-help-es <https://stat.ethz.ch/mailman/listinfo/r-help-es>
>> >> 
>> > 
>> >       [[alternative HTML version deleted]]
>> > 
>> > _______________________________________________
>> > R-help-es mailing list
>> > R-help-es using r-project.org <mailto:R-help-es using r-project.org>
>> > https://stat.ethz.ch/mailman/listinfo/r-help-es <https://stat.ethz.ch/mailman/listinfo/r-help-es>
>> 
> 


------------ próxima parte ------------
Se ha borrado un adjunto en formato HTML...
URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20220407/7b647c01/attachment-0001.html>

------------ próxima parte ------------
A non-text attachment was scrubbed...
Name: fs3EG.png
Type: image/png
Size: 30694 bytes
Desc: no disponible
URL: <https://stat.ethz.ch/pipermail/r-help-es/attachments/20220407/7b647c01/attachment-0001.png>


Más información sobre la lista de distribución R-help-es