[R-es] Alto rendimiento

javier.ruben.marcuzzi en gmail.com javier.ruben.marcuzzi en gmail.com
Mar Oct 11 16:22:30 CEST 2016


Estimado Carlos Gil Bellosta

¿Cómo está usted? En estos lados de América del sur comienza la primavera, desde la ventana miro la parra contando las posibles uvas, siempre aparece un ave que se arrima a la ventana o incluso llegan hasta la computadora como si supiesen usarla.

Ahora en R.

En ese esquema un modelo lineal tendría que ir con mlib que es aportada por sparklyr, en ese caso tendría toda la capacidad de proceso, pero no en un ml tradicional como modelo <- lm (y ~ var1 + var2).

En otras palabras http://spark.rstudio.com/mllib.html aporta beneficios, pero lo que está por fuera correría como el R de CRAN con un hilo del procesador.

Los otros días vi el video de la charla, no me quedo claro si Microsoft optimiza las librerías de sus repositorios al compilarlas o solo las de su propiedad.

Javier Rubén Marcuzzi

De: Carlos J. Gil Bellosta 
Enviado: martes, 11 de octubre de 2016 10:59
Para: Javier Marcuzzi
CC: r-help-es
Asunto: Re: [R-es] Alto rendimiento

Hola, ¿qué tal?

Spark correría en tantos hilos como estuviese configurado a utilizar (con límite en los existentes). La promesa de sparklyr es que se trata de una mera interfaz que delega el procesamiento de datos en Spark. Spark paralelizaría (que de eso trata).

Un saludo,

Carlos J. Gil Bellosta
http://www.datanalytics.com



El 11 de octubre de 2016, 15:55, <javier.ruben.marcuzzi en gmail.com> escribió:
Estimados

En el sitio de https://www.rstudio.com/  hay un aviso sobre http://spark.rstudio.com/index.html ( sparklyr ).

Microsoft publico un artículo donde comparan el R Server que está dentro de SQL server (o por separado, depende un poco), o el Microsoft R, junto con algunas librerías que se pueden compilar y obtener lo mismo en Ubuntu.

Supongamos que tengo el dinero como para comprar por ejemplo http://www.intel.la/content/www/xl/es/processors/xeon/xeon-processor-e7-family.html uno de estos procesadores con 36 núcleos.

Supongamos que tengo aún más dinero y puedo comprar 4 computadoras y colocarlas de tal forma que puedan trabajar en conjunto.

Ahora mi pregunta, spark (sparklyr) utiliza mis cuatro computadoras pero ¿un solo núcleo o los 36? (java usa solo un núcleo)

La parte de Microsoft utiliza los 36 procesadores, pero las librerías que están en los repositorios de Microsoft (no las de CRAN) ¿están optimizadas para los 36 procesadores?

O solo hay partes en spark como mlib o lo específico de R Microsoft optimizado, que puedan utilizar todos los núcleos y/o procesadores. Por ejemplo MCMCglmm ¿tiene beneficios en cualquiera de estas tecnologías o solo utiliza lo mismo que puede procesar en una portátil?

O si compro los cuatro equipos con 36 núcleos, instalo la versión de Microsoft junto con sparklyr y: ¿tengo una capacidad de cálculo impresionante, o esa capacidad es solo en sectores de R siendo el resto procesado en forma tradicional?

¿Hay comentarios al respecto desde la experiencia de alguno del grupo?

Javier Rubén Marcuzzi


        [[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es en r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es



	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es