Metologías de Data Mining aplicadas al pronóstico de casos COVID-19 en Perú

Autores/as

  • Roberto León Leyva Universidad Nacional de Ingeniería image/svg+xml Autor/a

DOI:

https://doi.org/10.71701/03gcw835

Palabras clave:

Data mining, pronóstico, COVID-19, Perú, series de tiempo, Arima, CRISP, datos abiertos gubernamentales

Resumen

Se utiliza la metodología CRISP de data mining aplicada sobre los datos abiertos gubernamentales de la COVID-19 para el caso de Perú y se emplean técnicas de series de tiempo para descubrir los mejores modelos que permitan realizar pronósticos respecto a los casos confirmados. Se aplican las fases de la metodología iterativamente: limpieza de datos, detección de hallazgos, selección del modelo Arima (autoregressive integrated moving average) para el análisis de series de tiempo y estimación de los parámetros que caracterizan la serie temporal. El estudio concluye que, para los datos abiertos gubernamentales de la COVID-19 en el caso de Perú, no es conveniente el uso de datos diarios porque existen diferencias significativas por el día de semana y que es mejor utilizar la semana. Sobre la base de ello, se determina que no existe un único modelo a nivel país ni a nivel departamento, por lo que se proponen modelos a nivel de provincias que resultan estadísticamente significativos para realizar pronósticos a corto plazo.

Descargas

Los datos de descarga aún no están disponibles.

Referencias

Azevedo, A. y Santos, M. (2008). KDD, SEMMA and CRISP-DM: a parallel overview. European Conference on Data Mining (pp. 182-185). Recuperado de https://www.researchgate.net/figure/Summary-of-the-correspondences-between-KDD-SEMMA-and-CRISP-DM_tbl1_220969845.

Our World in Data. Coronavirus (COVID-19) deaths. Recuperado de https://ourworldindata.org/covid-deaths?country=~PER.

Banco Central de Reserva del Perú. PBI desestacionalizado - promedio móvil 3 meses. Recuperado de https://estadisticas.bcrp.gob.pe/estadisticas/series/mensuales/resultados/PN38081AM/html/2019-1/2021-3.

Plataforma Nacional de Datos Abiertos. Casos positivos por COVID-19 - [Ministerio de Salud - MINSA]. Recuperado de https://www.datosabiertos.gob.pe/dataset/casos-positivos-por-covid-19-ministerio-de-salud-minsa.

Saltz, J. (30 de noviembre de 2020). CRISP-DM is still the most popular framework for executing data science projects. Data Science Process Alliance. Recuperado de https://www.datascience-pm.com/crisp-dm-still-most-popular.

Piatetsky, G. (2014). CRISP-DM, still the top methodology for analytics, data mining, or data science projects. KDnuggets. Recuperado de https://www.kdnuggets.com/2014/10/crisp-dm-top-methodology-analytics-data-mining-data-science-projects.html.

Chapman, P. (2000). CRISP-DM 1.0. Atlanta: SPSS.

Cirillo, A. (2017). R Data Mining. Birmingham-Mumbai: Packt.

Enders, W. (2014). Applied econometric time series. Massachusets: Wiley.

Hydman, R. y Athanasopoulos, G. (2014). Forecasting: principles and practice. Melbourne: OTexts.

Orosco Gavilán, J. (2019). Uso de los modelos heterocedásticos con bootstrap en el análisis del índice general de la Bolsa de Valores de Lima [tesis de maestría]. Universidad Nacional Agraria La Molina, Lima, Perú.

Porras Cerrón, J. (2017). Pruebas no paramétricas usando R. Lima: Universidad Nacional Agraria La Molina.

Shumway, R. y Stoffer, D. (2017). Time series analysis and its applications. Pittsburg: Springer.

Tandon, H., Ranjan, P., Chakraborty, T. y Suhag, V. (2020). Coronavirus (COVID-19): Arima based time- series analysis to forecast near future. Recuperado el 18 de abril de 2021 de https://arxiv.org/abs/2004.07859.

Descargas

Publicado

2024-10-11

Número

Sección

Artículos

Cómo citar

Metologías de Data Mining aplicadas al pronóstico de casos COVID-19 en Perú. (2024). Revista I+i, 15. https://doi.org/10.71701/03gcw835