Análisis comparativo entre PySpark y Pandas para el procesamiento de datos masivos de covid19
Abstract
Históricamente, las computadoras se volvieron más rápidas cada año a través del
aumento de la velocidad del procesador, los nuevos procesadores cada año podían
ejecutar más instrucciones por segundo que el año anterior. Por consiguiente, las
aplicaciones se volvieron más rápidas cada año sin que se necesitaran cambios en su
código. Esta tendencia condujo a un ecosistema de aplicaciones que se acumuló con el
tiempo, la mayoría de las cuales fueron diseñadas para ejecutarse en un solo
procesador. Estas aplicaciones siguieron aprovechando los avances de velocidades de
procesador para escalar a cálculos y volúmenes de datos mayores. [ISAACSON, 2014].