CatBoost: Aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar

Autores/as

DOI:

https://doi.org/10.24215/18509959.38.e3

Palabras clave:

Aprendizaje automático, CatBoost, Shapley, Rendimiento académico, métodos de ensamble

Resumen

El rendimiento académico de los niños es una importante tarea para las escuelas y es de atracción desde el campo de la ciencia de datos que atiende esta problemática multifactorial con diversas técnicas de minería de datos sobre conjuntos de datos cada vez más completos que abordan factores socioeconómicos como posibles condicionantes. Presentamos un método que mejora la Exactitud de la predicción del rendimiento escolar combinando la aplicación del modelo de aprendizaje automático en conjunto CatBoost con la explicación y mejora de la transparencia de la clasificación que efectúa, mediante la puntuación de las características con base en los valores SHAP (SHapley Additive exPlanations). Se dispone de cuatro tipos de promedios: Domina los aprendizajes requeridos (DAR), Alcanza los aprendizajes requeridos (AAR), Próximo a alcanzar los aprendizajes requeridos (PAAR) y No alcanza los aprendizajes requeridos (NAAR). Cómo los tipos de promedios PAAR y NAAR constituyen clases minoritarias fueron balanceados respecto de las clases mayoritarias DAR y AAR. Se alcanzó una Exactitud y Precisión del 91%. Las características de mayor impacto en la predicción son las habilidades sociales, la ocupación del padre, ingreso familiar, género, posible discapacidad, comportamiento, estructura familiar, número de hermanos, entre otros.

Descargas

Los datos de descargas todavía no están disponibles.

Biografía del autor/a

Jorge Iván Pincay Ponce, Universidad Laica Eloy Alfaro de Manabí

Doctor (c) en Informática. Máster en Tecnologías de Información y de las Comunicaciones. Máster en Ingeniería de Software. Ingeniero en Sistemas. Docente en las carreras de Tecnologías de Información y de Software en la Universidad Laica Eloy Alfaro de Manabí.

Armando E. De Giusti, Universidad Nacional de La Plata

Investigador Principal del CONICET y Director del Instituto de Investigación en Informática LIDI de la Universidad Nacional de La Plata, Argentina. Especialista en Tecnología Informática Aplicada en Educación, Ingeniero en Telecomunicaciones y Calculista Científico

Diana Alexandra Sánchez Andrade, Universidad de Guayaquil

Máster en Visualización de Datos. Ingeniera en Sistemas. Investigadora sobre ciencia de datos, tecnologías accesibles e ingeniería de software. Cumple funciones de soporte informático en la Universidad de Guayaquil.

Juan Alberto Figueroa Suárez, Universidad Laica Eloy Alfaro de Manabí

Máster en Gerencia Educativa. Máster en Ingeniería de Software. Especialista en Diseño Curricular. Analista de Sistemas. Docente de las asignaturas de Informática en la Universidad Laica Eloy Alfaro de Manabí.

Citas

M. Soncin y M. Cannistrà, “Data analytics in education: are schools on the long and winding road?”, Qualitative Research in Accounting & Management, vol. 19, no. 3, 2022, doi: https://doi.org/10.1108/QRAM-04-2021-0058.

K. Schildkamp, “Data-based decision-making for school improvement: Research insights and gaps”, Educational Research, vol. 61, no. 3, Art. no. 3, jul. 2019, doi: https://doi.org/10.1080/00131881.2019.1625716 .

J. I. Pincay-Ponce, J. S. Herrera-Tapia, J. Terranova-Ruiz, M. Cruz-Felipe, J. C. Sendón-Varela, y L. Fernández-Capestany, “Minería de datos educativos: Incidencia de factores socioeconómicos en el aprovechamiento escolar”, Revista Ibérica de Sistemas e Tecnologias de Informação, no. E49, 2022.

J. I. Pincay-Ponce, “Reflexiones sobre la accesibilidad web para el contenido educativo en los sistemas de administración de aprendizaje”, REFCalE: Revista Electrónica Formación y Calidad Educativa. ISSN 1390-9010, vol. 6, no. 1, pp. 193-206, 2018.

J. I. Pincay-Ponce, J. S. Herrera-Tapia, J. Terranova-Ruiz, M. Cruz-Felipe, J. C. Sendón-Varela, y L. Fernández-Capestany, “Analítica de datos de factores socioeconómicos que inciden en el rendimiento escolar. Revisión sistemática”, Revista Ibérica de Sistemas e Tecnologias de Informação, no. E52, Art. no. E52, 2023.

F. Ofori, E. Maina, y R. Gitonga, “Using Machine Learning Algorithms to Predict Students’ Performance and Improve Learning Outcome: A Literature Based Review”, pp. 2616-3573, mar. 2020.

J. Brownlee, Ensemble Learning Algorithms With Python, 1.11. Machine Learning Mastery, 2021.

L. Prokhorenkova, G. Gusev, A. Vorobev, A. V. Dorogush, y A. Gulin, “CatBoost: unbiased boosting with categorical features”, no. arXiv:1706.09516. arXiv, 20 de enero de 2019. Accedido: 22 de noviembre de 2022. [En línea]. Disponible en: http://arxiv.org/abs/1706.09516

X. Xiang, S. Duan, H. Pan, P. Han, J. Cao, y C. Liu, “From One-hot Encoding to Privacy-preserving Synthetic Electronic Health Records Embedding”, en Proceedings of the 2020 International Conference on Cyberspace Innovation of Advanced Technologies, Guangzhou China: ACM, dic. 2020, pp. 407-413. doi: https://doi.org/10.1145/3444370.3444605 .

A. Joshi, P. Saggar, R. Jain, M. Sharma, D. Gupta, y A. Khanna, “CatBoost — An Ensemble Machine Learning Model for Prediction and Classification of Student Academic Performance”, Adv. Data Sci. Adapt. Data Anal., vol. 13, no. 03n04, p. 2141002, jul. 2021, doi: https://doi.org/10.1142/S2424922X21410023.

Z. Mingyu, W. Sutong, W. Yanzhang, y W. Dujuan, “An interpretable prediction method for university student academic crisis warning”, Complex Intell. Syst., vol. 8, no. 1, pp. 323-336, feb. 2022, doi: https://doi.org/10.1007/s40747-021-00383-0.

S. Lundberg y S.-I. Lee, “A Unified Approach to Interpreting Model Predictions”, 2017, doi: https://doi.org/10.48550/ARXIV.1705.07874.

F. Grina, Z. Elouedi, y E. Lefevre, “Learning from Imbalanced Data Using an Evidential Undersampling-Based Ensemble”, en Scalable Uncertainty Management, F. Dupin de Saint-Cyr, M. Öztürk-Escoffier, y N. Potyka, Eds., en Lecture Notes in Computer Science, vol. 13562. Cham: Springer International Publishing, 2022, pp. 235-248. doi: https://doi.org/10.1007/978-3-031-18843-5_16.

G. Lemaître, F. Nogueira, y C. K. Aridas, “Imbalanced-learn: A Python Toolbox to Tackle the Curse of Imbalanced Datasets in Machine Learning”, Journal of Machine Learning Research, vol. 18, no. 17, Art. no. 17, 2017.

N. V. Chawla, K. W. Bowyer, L. O. Hall, y W. P. Kegelmeyer, “SMOTE: synthetic minority over-sampling technique”, Journal of artificial intelligence research, vol. 16, pp. 321-357, 2002.

A. Fernández, S. Garcia, F. Herrera, y N. V. Chawla, “SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary”, Journal of artificial intelligence research, vol. 61, pp. 863-905, 2018.

Ministerio de Educación, “Instructivo para la aplicación de la evaluación estudiantil (actualizado a julio 2016)”. Ministerio de Educación, 2016. [En línea]. Disponible en: https://tinyurl.com/ycc6tdvz

Ministerio de Educación del Ecuador, “Instructivo para la aplicación de la evaluación estudiantil”, Ministerio de Educación del Ecuador, Quito, Ecuador, 2013.

J. Liu, G. Liang, K. D. Siegmund, y J. P. Lewinger, “Data integration by multi-tuning parameter elastic net regression”, BMC Bioinformatics, vol. 19, no. 1, Art. no. 1, dic. 2018, doi: https://doi.org/10.1186/s12859-018-2401-1.

S. Mukhopadhyay, Advanced Data Analytics Using Python. Berkeley, CA: Apress, 2018. doi: https://doi.org/10.1007/978-1-4842-3450-1.

Ministerio de Educación del Ecuador, “Proyectos escolares. Instructivo”, Ministerio de Educación del Ecuador, Quito, Ecuador, 2016.

UNESCO, “Resultados de logros de aprendizaje y factores asociados del Estudio Regional Comparativo y Explicativo (ERCE 2019)”, 2021. https://www.unesco.org/es/articles/resultados-de-logros-de-aprendizaje-y-factores-asociados-del-estudio-regional-comparativo-y## (accedido 19 de octubre de 2022).

Descargas

Publicado

2024-06-06

Cómo citar

[1]
J. I. Pincay Ponce, A. E. De Giusti, D. A. Sánchez Andrade, y J. A. Figueroa Suárez, «CatBoost: Aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar», TEyET, n.º 38, p. e3, jun. 2024.

Número

Sección

Artículos originales