CatBoost: Aprendizaje automático de conjunto para la analítica de los factores socioeconómicos que inciden en el rendimiento escolar
DOI:
https://doi.org/10.24215/18509959.38.e3Palabras clave:
Aprendizaje automático, CatBoost, Shapley, Rendimiento académico, métodos de ensambleResumen
El rendimiento académico de los niños es una importante tarea para las escuelas y es de atracción desde el campo de la ciencia de datos que atiende esta problemática multifactorial con diversas técnicas de minería de datos sobre conjuntos de datos cada vez más completos que abordan factores socioeconómicos como posibles condicionantes. Presentamos un método que mejora la Exactitud de la predicción del rendimiento escolar combinando la aplicación del modelo de aprendizaje automático en conjunto CatBoost con la explicación y mejora de la transparencia de la clasificación que efectúa, mediante la puntuación de las características con base en los valores SHAP (SHapley Additive exPlanations). Se dispone de cuatro tipos de promedios: Domina los aprendizajes requeridos (DAR), Alcanza los aprendizajes requeridos (AAR), Próximo a alcanzar los aprendizajes requeridos (PAAR) y No alcanza los aprendizajes requeridos (NAAR). Cómo los tipos de promedios PAAR y NAAR constituyen clases minoritarias fueron balanceados respecto de las clases mayoritarias DAR y AAR. Se alcanzó una Exactitud y Precisión del 91%. Las características de mayor impacto en la predicción son las habilidades sociales, la ocupación del padre, ingreso familiar, género, posible discapacidad, comportamiento, estructura familiar, número de hermanos, entre otros.
Descargas
Citas
M. Soncin y M. Cannistrà, “Data analytics in education: are schools on the long and winding road?”, Qualitative Research in Accounting & Management, vol. 19, no. 3, 2022, doi: https://doi.org/10.1108/QRAM-04-2021-0058.
K. Schildkamp, “Data-based decision-making for school improvement: Research insights and gaps”, Educational Research, vol. 61, no. 3, Art. no. 3, jul. 2019, doi: https://doi.org/10.1080/00131881.2019.1625716 .
J. I. Pincay-Ponce, J. S. Herrera-Tapia, J. Terranova-Ruiz, M. Cruz-Felipe, J. C. Sendón-Varela, y L. Fernández-Capestany, “Minería de datos educativos: Incidencia de factores socioeconómicos en el aprovechamiento escolar”, Revista Ibérica de Sistemas e Tecnologias de Informação, no. E49, 2022.
J. I. Pincay-Ponce, “Reflexiones sobre la accesibilidad web para el contenido educativo en los sistemas de administración de aprendizaje”, REFCalE: Revista Electrónica Formación y Calidad Educativa. ISSN 1390-9010, vol. 6, no. 1, pp. 193-206, 2018.
J. I. Pincay-Ponce, J. S. Herrera-Tapia, J. Terranova-Ruiz, M. Cruz-Felipe, J. C. Sendón-Varela, y L. Fernández-Capestany, “Analítica de datos de factores socioeconómicos que inciden en el rendimiento escolar. Revisión sistemática”, Revista Ibérica de Sistemas e Tecnologias de Informação, no. E52, Art. no. E52, 2023.
F. Ofori, E. Maina, y R. Gitonga, “Using Machine Learning Algorithms to Predict Students’ Performance and Improve Learning Outcome: A Literature Based Review”, pp. 2616-3573, mar. 2020.
J. Brownlee, Ensemble Learning Algorithms With Python, 1.11. Machine Learning Mastery, 2021.
L. Prokhorenkova, G. Gusev, A. Vorobev, A. V. Dorogush, y A. Gulin, “CatBoost: unbiased boosting with categorical features”, no. arXiv:1706.09516. arXiv, 20 de enero de 2019. Accedido: 22 de noviembre de 2022. [En línea]. Disponible en: http://arxiv.org/abs/1706.09516
X. Xiang, S. Duan, H. Pan, P. Han, J. Cao, y C. Liu, “From One-hot Encoding to Privacy-preserving Synthetic Electronic Health Records Embedding”, en Proceedings of the 2020 International Conference on Cyberspace Innovation of Advanced Technologies, Guangzhou China: ACM, dic. 2020, pp. 407-413. doi: https://doi.org/10.1145/3444370.3444605 .
A. Joshi, P. Saggar, R. Jain, M. Sharma, D. Gupta, y A. Khanna, “CatBoost — An Ensemble Machine Learning Model for Prediction and Classification of Student Academic Performance”, Adv. Data Sci. Adapt. Data Anal., vol. 13, no. 03n04, p. 2141002, jul. 2021, doi: https://doi.org/10.1142/S2424922X21410023.
Z. Mingyu, W. Sutong, W. Yanzhang, y W. Dujuan, “An interpretable prediction method for university student academic crisis warning”, Complex Intell. Syst., vol. 8, no. 1, pp. 323-336, feb. 2022, doi: https://doi.org/10.1007/s40747-021-00383-0.
S. Lundberg y S.-I. Lee, “A Unified Approach to Interpreting Model Predictions”, 2017, doi: https://doi.org/10.48550/ARXIV.1705.07874.
F. Grina, Z. Elouedi, y E. Lefevre, “Learning from Imbalanced Data Using an Evidential Undersampling-Based Ensemble”, en Scalable Uncertainty Management, F. Dupin de Saint-Cyr, M. Öztürk-Escoffier, y N. Potyka, Eds., en Lecture Notes in Computer Science, vol. 13562. Cham: Springer International Publishing, 2022, pp. 235-248. doi: https://doi.org/10.1007/978-3-031-18843-5_16.
G. Lemaître, F. Nogueira, y C. K. Aridas, “Imbalanced-learn: A Python Toolbox to Tackle the Curse of Imbalanced Datasets in Machine Learning”, Journal of Machine Learning Research, vol. 18, no. 17, Art. no. 17, 2017.
N. V. Chawla, K. W. Bowyer, L. O. Hall, y W. P. Kegelmeyer, “SMOTE: synthetic minority over-sampling technique”, Journal of artificial intelligence research, vol. 16, pp. 321-357, 2002.
A. Fernández, S. Garcia, F. Herrera, y N. V. Chawla, “SMOTE for learning from imbalanced data: progress and challenges, marking the 15-year anniversary”, Journal of artificial intelligence research, vol. 61, pp. 863-905, 2018.
Ministerio de Educación, “Instructivo para la aplicación de la evaluación estudiantil (actualizado a julio 2016)”. Ministerio de Educación, 2016. [En línea]. Disponible en: https://tinyurl.com/ycc6tdvz
Ministerio de Educación del Ecuador, “Instructivo para la aplicación de la evaluación estudiantil”, Ministerio de Educación del Ecuador, Quito, Ecuador, 2013.
J. Liu, G. Liang, K. D. Siegmund, y J. P. Lewinger, “Data integration by multi-tuning parameter elastic net regression”, BMC Bioinformatics, vol. 19, no. 1, Art. no. 1, dic. 2018, doi: https://doi.org/10.1186/s12859-018-2401-1.
S. Mukhopadhyay, Advanced Data Analytics Using Python. Berkeley, CA: Apress, 2018. doi: https://doi.org/10.1007/978-1-4842-3450-1.
Ministerio de Educación del Ecuador, “Proyectos escolares. Instructivo”, Ministerio de Educación del Ecuador, Quito, Ecuador, 2016.
UNESCO, “Resultados de logros de aprendizaje y factores asociados del Estudio Regional Comparativo y Explicativo (ERCE 2019)”, 2021. https://www.unesco.org/es/articles/resultados-de-logros-de-aprendizaje-y-factores-asociados-del-estudio-regional-comparativo-y## (accedido 19 de octubre de 2022).
Descargas
Publicado
Cómo citar
Número
Sección
Licencia
Derechos de autor 2024 Jorge Iván Pincay Ponce, Armando E. De Giusti, Diana Alexandra Sánchez Andrade, Juan Alberto Figueroa Suárez

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.
Derechos de autor y licencias
Los artículos aceptados para publicación tendrán la licencia de Creative Commons BY-NC. Los autores deben firmar un acuerdo de distribución no exclusiva después de la aceptación del artículo.