Mejora del indicador de retención en una universidad privada a partir de la clasificación de alumnos utilizando un modelo predictivo
Resumen
La presente investigación tiene propósito predecir la deserción estudiantil de una universidad privada, aplicando dos técnicas de la minería de datos la regresión logística binaria y árbol de clasificación CART. Para el estudio se utilizó datos la base de datos de alumnos en los periodos 2019-2 con 32176 registros con datos relacionados a factores socio-demográfica, académicos y económicos. Se aplicó el balanceo de datos con la técnica de submuestreo a fin de mejorar la capacidad predictiva. El árbol de clasificación CART resultó con mayores valores para la exactitud, sensibilidad, especificidad y AUC de 73,8%, 97,3%, 50,3% y 73,8% respectivamente para predecir la deserción universitaria en comparación de la regresión logística binaria cuyos valores fueron 66,4%, 71,2%, 65,8% y 72,4% respectivamente. El árbol resultó identificó las variables más importantes: TAS_NOM_A, TAS_NOM_P, SEDE, TAS_ASI_A; con un tamaño de 13 nodos, con siete nodos terminales, de los cuales tres para predecir la clase SI y cuatro para la clase NO; así mismo, obtuvo cuatro reglas de decisión asociadas a la clase que no se matriculan. The purpose of this research is to predict student dropout from a private university, applying two data mining techniques: binary logistic regression and CART classification tree. For the study, data was used from the student database in the period 2019-2 with 32,176 records with data related to socio-demographic, academic, and economic factors. Data balancing was applied with the subsampling technique in order to improve the predictive capacity. The CART classification tree resulted in higher values for accuracy, sensitivity, specificity, and AUC of 73.8%, 97.3%, 50.3%, and 73.8%, respectively, to predict college dropout compared to logistic regression. binary whose values were 66.4%, 71.2%, 65.8% and 72.4% respectively. The resulting tree identified the most important variables: TAS_NOM_A, TAS_NOM_P, SEDE, TAS_ASI_A; with a size of 13 nodes, with seven terminal nodes, of which three to predict the SI class and four to predict the NO class; likewise, he obtained four decision rules associated with the class that are not enrolled.
Colecciones
- EPL-EI Tesis [82]
El ítem tiene asociados los siguientes ficheros de licencia: