Implementación de modelos de aprendizaje automático para predecir la deserción estudiantil en Tecsup, 2024
DOI:
https://doi.org/10.71701/n2tes416Palabras clave:
Deserción estudiantil, preprocesamiento de datos, modelos de clasificación, predicción, exactitud, aprendizaje automático, minería de datosResumen
Este trabajo tiene como objetivo principal pronosticar si un estudiante desertará o no en el 2024 en Tecsup implementando para ello distintos modelos de clasificación de machine learning y elegir el mejor, además de identificar cuáles son las variables relevantes que causan la deserción estudiantil. La justificación para este estudio es que, de acuerdo con la revisión de literatura, la deserción es un problema que sigue aquejando a las instituciones educativas peruanas y, por esta razón, se quieren tomar medidas preventivas para evitar que un estudiante abandone sus estudios en Tecsup.
El alcance de este estudio es descriptivo; el diseño es no experimental, transversal y descriptivo. La población está conformada por 38 835 registros de estudiantes en el periodo 2019-2022 con información de tipo personal, académica y financiera, entre las más importantes. No se llevó a cabo un muestreo para contar con la mayor cantidad de datos posible y obtener mayor precisión en la predicción. Asimismo, se usaron técnicas estadísticas como mapa de calor, histograma, gráfico de distribución, gráfica de cajas, gráfico de barras, gráfico de barras dobles y tablas; se implementaron ocho distintos modelos de clasificación mediante Python a través de Jupyter Notebook para su procesamiento.
Por otra parte, dentro de los resultados más destacados tenemos la alta correlación existente (0,92) entre las variables cantidad de cursos cursados y cantidad de cursos aprobados, por lo cual se procedió a eliminar la primera debido a que es la suma de la cantidad de cursos aprobados y cursos desaprobados. Se llevó a cabo un proceso de discretización para las variables cantidad de cursos aprobados, cantidad de cursos desaprobados, edad y estado de pago de pensión a tiempo, quedando al final con 4, 4, 9 y 2 categorías, respectivamente. Del total de 50 variables numéricas que se obtuvieron luego de un proceso de dummificación, se eligieron 36 de estas como las más relevantes en la deserción. De los ocho modelos de clasificación propuestos (regresión logística, k-NN, árbol de decisión, random forest, XGBoost, LightGBM, CatBoost y red neuronal multicapa), finalmente se eligió LightGBM con un valor de exactitud en el conjunto de entrenamiento de 0,9512 y un valor de exactitud en el conjunto de prueba de 0,8892.
Consecuentemente, se puede considerar al modelo LightGBM como uno adecuado para pronosticar la deserción debido a su alta capacidad de generalización por su elevado valor de exactitud en el conjunto de prueba y la ausencia de sobreajuste por su mínima diferencia entre los valores de exactitud en el conjunto de entrenamiento y prueba (0,0619). Además, este modelo posee ventajas como mayor velocidad de entrenamiento, menor uso de memoria y mayor exactitud en comparación con otros modelos de clasificación.
Descargas
Referencias
[1] Alania, P. (2018). Aplicación de técnicas de minería de datos para predecir la deserción estudiantil de la facultad de ingeniería de la Universidad Nacional Daniel Alcides Carrión [Tesis para obtener el grado de magíster]. Repositorio Institucional UNDAC.
[2] Aleans, K. (2012). Determinantes de la deserción estudiantil universitaria por niveles de formación en instituciones de educación superior de la ciudad de Medellín. Universidad EAFIT.
[3] Amaya, Y., Barrientos, E., & Heredia, D. (2014). Modelo predictivo de deserción estudiantil utilizando técnicas de minería de datos. RedCLARA. https://documentos.redclara.net/bitstream/10786/759/1/124-22-3-2014-Modelo%20predictivo%20de%20deserci%C3%B3n%20estudiantil%20utilizando%20t%C3%A9cnicas%20de%20miner%C3%ADa%20de%20datos.pdf
[4] Arias-Gómez, J., Villasís-Keever, M., & Miranda, M. (2016). El protocolo de investigación III: la población de estudio. Alergia México, 201-206.
[5] Banerjee, P. (2020). LightGBM classifier in Python. Kaggle. https://www.kaggle.com/code/prashant111/lightgbm-classifier-in-python
[6] Berens, J., Schneider, K., Görtz, S., Oster, S., & Burghoff, J. (2019). Early detection of students at risk–predicting student dropouts using administrative student data and machine learning methods. Journal of Educational Data Mining, 1-41.
[7] Camargo, A. (2020). Modelo para la predicción de la deserción de estudiantes de pregrado, basado en técnicas de minería de datos [Tesis para obtener el grado de magíster]. Repositorio Universidad de La Costa.
[8] Cuji, B., Gavilanes, W., & Sánchez, R. (2017). Modelo predictivo de deserción estudiantil basado en arboles de decisión. Revista Espacios, 17-25.
[9] Díaz, K., Chindoy, B., & Rosado, A. (2019). Review of techniques, tools, algorithms and attributes for data. En Journal of Physics: Conference Series (pp. 1-6). IOP Publishing.
[10] Escalante, J., Medina, C., & Vásquez, A. (2023). La deserción universitaria: un problema no resuelto en el Perú. Revista Hacedor, 60-72.
[11] Fernández, X., & Silva, E. (2014). Deserción estudiantil universitaria en el primer semestre. El caso de una institución de educación superior ecuatoriana. Cuadernos del Contrato Social por la Educación, 34-48.
[12] González, F., & Arismendi, K. (2018). Deserción estudiantil en la educación superior técnico-profesional: Explorando los factores que inciden en alumnos de primer año. Revista de la Educación Superior, 109-137.
[13] Han, J., Kamber, M., & Pei, J. (2012). Data mining: Concepts and techniques. Elsevier Inc.
[14] Hellas, A. et al. (2018). Predicting academic performance: A systematic literature review. En Proceedings Companion of the 23rd Annual ACM Conference on Innovation and Technology in Computer Science Education (ITiCSE '18 Companion) (pp. 175-199).
[15] Hernández, R., Fernández, C., & Baptista, M. (2014). Metodología de la investigación. McGraw-Hill Education.[
[16] Iljin, V. (2023, 4 de mayo). Comparing the Titans of Machine Learning: XGBoost, CatBoost and LightGBM. LinkedIn. https://www.linkedin.com/pulse/comparing-titans-machine-learning-xgboost-catboost-lightgbm-iljin/
[17] James, G., Witten, D., Hastie, T., & Tibshirani, R. (2021). The elements of statistical learning with applications in R. Springer.
[18] Ministerio de Educación (Minedu). (2024). Resolución Viceministerial N° 095-2024-MINEDU. https://cdn.www.gob.pe/uploads/document/file/6894408/5957002-rvm_n-_095-2024-minedu.pdf
[19] Mori, J. (2021). Factores asociados al riesgo en la deserción estudiantil en un instituto de educación superior tecnológico público. Revista de Investigación de la Universidad Norbert Wiener, 59-72.
[20] Rivera, K. (2021). Modelo predictivo para la detección temprana de estudiantes con alto riesgo de deserción académica. Revista Innovación y Software, 6-13.
[21] scikit-learn. (s. f.). Feature selection. scikit-learn. https://scikit-learn.org/stable/modules/feature_selection.html
[22] Sifuentes, O. (2018). Modelos predictivos de la deserción estudiantil en una universidad privada peruana. Revista Industrial Data, 47.52.
[23] Spositto, O., Etcheverry, M., Ryckeboer, H., & Bossero, J. (2010). Aplicación de técnicas de minería de datos para la evaluación del rendimiento académico y la deserción estudiantil. https://repositoriocyt.unlam.edu.ar/handle/123456789/1267
[24] Tam, J., Vega, G., & Oliveros, R. (2008). Tipos. métodos y estrategias de investigación científica. Pensamiento y Acción, 145-154.
[25] Vásquez, J. (2016). Modelo predictivo para estimar la deserción de estudiantes en una institución de educación superior [Tesis para obtener el grado de magíster]. Repositorio Académico Universidad de Chile.
[26] Viale, H. (2014). Una aproximación teórica a la deserción estudiantil universitaria. Revista Digital de Investigación en Docencia Universitaria, 59-75.
[27] Viera, D., Flores, M., & Pachari-Vera, E. (2020). Factores de deserción estudiantil: Un estudio exploratorio desde Perú. Interciencia, 586-591.
[28] Villegas, B., & Núñez, L. (2024). Factores asociados a la deserción estudiantil en el ámbito universitario. Una revisión sistemática 2018-2023. Revista Iberoamericana para la Investigación y el Desarrollo Educativo, 14(28).
Descargas
Publicado
Versiones
- 2025-12-23 (3)
- 2025-12-23 (2)
- 2025-12-23 (1)
Número
Sección
Licencia
Derechos de autor 2025 Mg. José Espinoza Melgarejo (Autor/a)

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.