[R-es] predicciones con XGBoost

Isidro Hidalgo Arellano |h|d@|go @end|ng |rom jccm@e@
Mie Feb 3 07:48:26 CET 2021


Nunca hay que usar datos vistos por el modelo para obtener una estimación
realista de su exactitud. Aunque se haga la validación cruzada. En esto
insisten mucho los que saben. Por ejemplo Yaser S. Abu-Mostafa en su libro
"Learning From Data" (tiene un curso que sigue el libro en el M.I.T). Por
eso, hay que hacer la validación cruzada con la parte de entrenamiento y,
una vez finalizado el modelo, usar la parte no vista por el modelo (test)
para calcular su acierto.
Respecto al error en validación cruzada, no entiendo muy bien lo que buscas.
Si quieres saber el error en CV, sólo tienes que predecir los datos de
entrenamiento con el modelo obtenido en la CV. Si lo que quieres es saber el
error de cada porción de datos usada en las particiones, no tengo ni idea,
pero es algo muy fácil de programar...

Un saludo,

Isidro Hidalgo Arellano
Observatorio del Mercado de Trabajo
Consejería de Economía, Empresas y Empleo
http://www.castillalamancha.es/

-----Mensaje original-----
De: R-help-es <r-help-es-bounces using r-project.org> En nombre de Manuel Mendoza
Enviado el: miércoles, 3 de febrero de 2021 7:18
Para: Lista R <r-help-es using r-project.org>
Asunto: [R-es] predicciones con XGBoost

Muy buenas, llevo un par de días tratando de familiarizarme con XGBoost para
regresión. En todos los tutoriales y ejemplos que encuentro empiezan
dividiendo los datos en train y test. Cuando utilizan xgb.cv, esto, para mi,
no tiene mucho sentido porque la validación cruzada ya te da un valor
realista de mse, pero, si lo hacen siempre será por alguna razón que
desconozco. Supongo que por esa misma razón no te dan las predicciones
obtenidas por CV sobre los datos, y eso es lo que yo busco. Me hacen falta
para representarlos frente a  los datos observados y obtener R cuadrado, que
es más intuitivo que el error y permite, además, comparar los resultados de
problemas distintos.
¿sabe alguien cómo obtener las predicciones obtenidas por CV sobre los
datos? y de paso, si alguien me dice para que dividen los datos en train y
test cuando después utilizan xgb.cv, pues también me vendría bien.
Gracias, como siempre,
Manuel

	[[alternative HTML version deleted]]

_______________________________________________
R-help-es mailing list
R-help-es using r-project.org
https://stat.ethz.ch/mailman/listinfo/r-help-es



Más información sobre la lista de distribución R-help-es