[R-es] Big data con R o phyton?

Carlos Ortega cof en qualityexcellence.es
Lun Dic 5 15:32:58 CET 2016


Hola Jesús,

Con Spark el lenguaje preferente a usar es Scala.

Python y R ofrecen adaptaciones, que aprovechan gran parte de su sintaxis
(no toda) y esas adaptaciones PySpark, RSpark incluyen funciones especiales
para delegar trabajos de procesamiento a Spark en modo distribuido.

Pero al menos por la parte de RSpark, si quieres utilizar toda la potencia
de procesamiento de Spark y en modo distribuido, tienes que ceñirte a un
conjunto de funciones (las propias de esta adaptación).

"sparklyr", permite usar Spark en modo distribuido, pero utilizando
"dplyr". "dplyr" permite generar consultas sobre Spark en modo distribuido
sin tener que pasar por realizar consultas Spark. Además, puedes utilizar
desde "R" las librerías Machine Learning de Spark (las MLlibs), que
incluyen la mayoría de los algoritmos MachineLearning. También "sparklyr"
puede conectarse con H2O y utilizar los algoritmos ML que proporciona H2O.

Y otra opción adicional para trabajar con "R" en modo distribuido,
utilizando igualmente muchos algoritmos MachineLearning (más que los que
trae las MLlibs) es H2O. Pero igualmente, tienes que utilizar las funciones
que trae el paquete "h2o.xxxxx()" para que lo que desees hacer pueda
realizarse en modo distribuido en tu clúster. Con H2O también puedes
utilizar Python, Scala, Java,....

Y sobre qué ventajas de escalado, velocidad te ofrece una y otra, te
recomiendo especialmente este benchmark, de los pocos que existen:
https://github.com/szilard/benchm-ml

Saludos,
Carlos Ortega
www.qualityexcellence.es

El 5 de diciembre de 2016, 12:09, Jesús Para Fernández <
j.para.fernandez en hotmail.com> escribió:

> Te agradezco la repsuesta, aunque no te he entendido muy bien.
>
> Se que para Spark está PySpark que entiendo que lo que hace es comunicar
> Python con Spark, al igual que SparkR comunica R con spark.
>
> Lo que había entendido es que con esas librerias podia hacer lo que
> quisiera en R o Python como lo haria en local pero con los volumenes de
> informacion que Spark me permite, pero por lo que te leo, esto no es del
> todo así???
>
>
> en cuanto al muestreo de datos, totalmente de acuerdo contigo. Smart data
> antes que Big data
>
> ________________________________
> De: José Luis Cañadas <canadasreche en gmail.com>
> Enviado: lunes, 5 de diciembre de 2016 10:57
> Para: Jesús Para Fernández
> Cc: r-help-es en r-project.org
> Asunto: Re: [R-es] Big data con R o phyton?
>
> Hola
> Hombre, aprender python no estorba. Pero en realidad en temas de bigdata
> python lo que tiene es pyspark que es una api para los modelos que hay en
> spark. En R está sparkR pero no están todos los modelos que hay en mllib de
> spark, se supone que el paquete sparklyr soluciona este tema, a ver como
> evoluciona.
> Por otro lado tienes h2o http://www.h2o.ai/ , que puede integrarse con
> spark y tiene apis para R, python y scala.  Y bueno, también existe la
> posibilidad de muestrear los datos, ¿o ya no nos acordamos?
>
> Saludos
>
> El 5 de diciembre de 2016, 10:49, Jesús Para Fernández <
> j.para.fernandez en hotmail.com<mailto:j.para.fernandez en hotmail.com>>
> escribió:
> Merece la pena aprender python para Big data con Spark o usando la
> libreria que acaba de salir para R es suficiente? Qué creeis?
>
>
>
>         [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org<mailto:R-help-es en r-project.org>
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>
>
>         [[alternative HTML version deleted]]
>
>
> _______________________________________________
> R-help-es mailing list
> R-help-es en r-project.org
> https://stat.ethz.ch/mailman/listinfo/r-help-es
>



-- 
Saludos,
Carlos Ortega
www.qualityexcellence.es

	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es