En los últimos años el uso del Big Data, Data Engineer, Data Science, Machine Learning están siendo muy utilizados por diversas empresas para procesar y analizar enormes volúmenes de datos multi-estructurados a grandes velocidades con el objetivo de encontrar valor en la información que pueda aportar en las tomas de decisiones estratégicas, tácticas y comerciales de las organizaciones.

Big Data , Data Engineer , Data Science , Data Lake, LakeHouse

Apache Spark es una de las principales tecnologías utilizados por Data Engineer y Data Science para implementar las soluciones e iniciativas que proyectan las empresas realizar en la actualidad y en los siguientes años para abordar casos de uso de negocio que generen valor a la organización.

El éxito de este framework radica en su capacidad de distribuir los procesos en forma paralela en clusters de cientos y miles de servidores, escalando rápidamente, además se integra con lenguajes de programación como es Python, Scala, Java y otro factor importante es que se puede desplegar diferentes infraestructuras como on-premises (data centers empresas) o cloud ( AWS , Google GCP , Microsoft Azure ).

Apache Spark