Metologías de Data Mining aplicadas al pronóstico de casos COVID-19 en Perú
DOI:
https://doi.org/10.71701/03gcw835Palabras clave:
Data mining, pronóstico, COVID-19, Perú, series de tiempo, Arima, CRISP, datos abiertos gubernamentalesResumen
Se utiliza la metodología CRISP de data mining aplicada sobre los datos abiertos gubernamentales de la COVID-19 para el caso de Perú y se emplean técnicas de series de tiempo para descubrir los mejores modelos que permitan realizar pronósticos respecto a los casos confirmados. Se aplican las fases de la metodología iterativamente: limpieza de datos, detección de hallazgos, selección del modelo Arima (autoregressive integrated moving average) para el análisis de series de tiempo y estimación de los parámetros que caracterizan la serie temporal. El estudio concluye que, para los datos abiertos gubernamentales de la COVID-19 en el caso de Perú, no es conveniente el uso de datos diarios porque existen diferencias significativas por el día de semana y que es mejor utilizar la semana. Sobre la base de ello, se determina que no existe un único modelo a nivel país ni a nivel departamento, por lo que se proponen modelos a nivel de provincias que resultan estadísticamente significativos para realizar pronósticos a corto plazo.
Descargas
Referencias
Azevedo, A. y Santos, M. (2008). KDD, SEMMA and CRISP-DM: a parallel overview. European Conference on Data Mining (pp. 182-185). Recuperado de https://www.researchgate.net/figure/Summary-of-the-correspondences-between-KDD-SEMMA-and-CRISP-DM_tbl1_220969845.
Our World in Data. Coronavirus (COVID-19) deaths. Recuperado de https://ourworldindata.org/covid-deaths?country=~PER.
Banco Central de Reserva del Perú. PBI desestacionalizado - promedio móvil 3 meses. Recuperado de https://estadisticas.bcrp.gob.pe/estadisticas/series/mensuales/resultados/PN38081AM/html/2019-1/2021-3.
Plataforma Nacional de Datos Abiertos. Casos positivos por COVID-19 - [Ministerio de Salud - MINSA]. Recuperado de https://www.datosabiertos.gob.pe/dataset/casos-positivos-por-covid-19-ministerio-de-salud-minsa.
Saltz, J. (30 de noviembre de 2020). CRISP-DM is still the most popular framework for executing data science projects. Data Science Process Alliance. Recuperado de https://www.datascience-pm.com/crisp-dm-still-most-popular.
Piatetsky, G. (2014). CRISP-DM, still the top methodology for analytics, data mining, or data science projects. KDnuggets. Recuperado de https://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html.
Chapman, P. (2000). CRISP-DM 1.0. Atlanta: SPSS.
Cirillo, A. (2017). R Data Mining. Birmingham-Mumbai: Packt.
Enders, W. (2014). Applied econometric time series. Massachusets: Wiley.
Hydman, R. y Athanasopoulos, G. (2014). Forecasting: principles and practice. Melbourne: OTexts.
Orosco Gavilán, J. (2019). Uso de los modelos heterocedásticos con bootstrap en el análisis del índice general de la Bolsa de Valores de Lima [tesis de maestría]. Universidad Nacional Agraria La Molina, Lima, Perú.
Porras Cerrón, J. (2017). Pruebas no paramétricas usando R. Lima: Universidad Nacional Agraria La Molina.
Shumway, R. y Stoffer, D. (2017). Time series analysis and its applications. Pittsburg: Springer.
Tandon, H., Ranjan, P., Chakraborty, T. y Suhag, V. (2020). Coronavirus (COVID-19): Arima based time- series analysis to forecast near future. Recuperado el 18 de abril de 2021 de https://arxiv.org/abs/2004.07859.
Descargas
Publicado
Número
Sección
Licencia

Esta obra está bajo una licencia internacional Creative Commons Atribución-NoComercial 4.0.