[R-es] Plantear problema desde el punto de vista Big Data

Jesús Para Fernández j.para.fernandez en hotmail.com
Dom Jul 2 10:45:20 CEST 2017


Buenas,

Como planteairiais el siguiente problema desde el punto de vista Big DATA.

Imaginad que teneis un sistema que genera un csv cada segundo de 2 megas aprox. Ese csv tiene que ser preprocesado para sacar las variables importantes y luego relacionado con la variable respuesta, la cual es dicotomica (OK,NOK)


Mi idea seria, usar spark para la ingesta de ese archivo, luego preprocesarlo con H2O conectado con R, y subirlo a una base de datos sql.


Una vez que la base de datos se va llenando, intentar genear algun modelo usando H2O conectado con R, y con el modelo ya validado, cada nueva instancia hacerla pasar por ese modelo.

¿Qué os parece la propuesta? ¿Lo hariais de otra manera?


	[[alternative HTML version deleted]]



Más información sobre la lista de distribución R-help-es