Una introducción a Spark

Título del curso

Una introducción a Spark.

Profesorado

Carlos J. Gil Bellosta, Circiter S.L., gilbellosta@gmail.com.

Carlos J. Gil Bellosta es licenciado en Matemáticas por la Universidad de Zaragoza y máster en matemáticas por Washington University (San Luis, EE.UU.).

Desde el 2005 trabaja como consultor estadístico en proyectos de grandes empresas españolas y extranjeras. En el periodo 2014-2015 trabajó en eBay como Senior Data Scientist. Ha sido pionero en el uso de herramientas big data para el análisis de datos en España.

Idioma del curso

Castellano.

Programación del curso

Grupo 1: Del 19 al 23 de Junio de 10:00 a 13:00h.

Grupo 2: Del 19 al 23 de Junio de 15:00 a 18:00h.

Descripción

Spark es una de las herramientas más populares para la manipulación y análisis estadístico de grandes volúmenes de datos. No solo en entornos académicos sino también en las grandes empresas.

El stack de aplicaciones para el big data ha sido bastante inestable durante los últimos años, pero se está asentando en una arquitectura en la que Hadoop sirve esencialmente de almacén de datos pero la manipulación de los mismos se delega en otras herramientas, de entre las que destaca Spark. Spark, además, cuenta con un conjunto de librerías muy potentes para el análisis de datos en paralelo, MLlib.

Objetivos

El objetivo de este curso es que el alumno se familiarice con entornos para la manipulación y análisis estadístico de grandes volúmenes de datos y, en concreto, con Spark, con la vista puesta tanto en las aplicaciones académicas como en las empresariales.

Programa del curso

Introducción a Spark en el contexto del ecosistema actual de herramientas big data.
Instalación y configuración
Manipulación de datos en Spark con R y Python.
Introducción a MLlib y la modelización estadística con Spark.

Evaluación

Al final del curso, se propondrán una serie de proyectos diversos de análisis de datos, de los que el alumno deberá elegir y desarrollar el que más se aproxime a sus intereses.

Prerrequisitos

El alumno ha de estar familiarizado con R y los fundamentos de la modelización estadística. Durante el curso se incursionará brevemente en Python, pero no será necesario el dominio de este lenguaje.

Dirigido a

Personas que quieran mejorar sus expectativas laborales
Investigadores que quieran poder disponer de una herramienta para el análisis masivo de datos

Aula

Grupo 1: PC3

Grupo 2: PC2