Una introducción a Spark
Título del curso
Una introducción a Spark.
Profesorado
Carlos J. Gil Bellosta, Circiter S.L., gilbellosta@gmail.com.
Carlos J. Gil Bellosta es licenciado en Matemáticas por la Universidad de Zaragoza y máster en matemáticas por Washington University (San Luis, EE.UU.).
Desde el 2005 trabaja como consultor estadístico en proyectos de grandes empresas españolas y extranjeras. En el periodo 2014-2015 trabajó en eBay como Senior Data Scientist. Ha sido pionero en el uso de herramientas big data para el análisis de datos en España.
Idioma del curso
Castellano.
Programación del curso
Grupo 1: Del 19 al 23 de Junio de 10:00 a 13:00h.
Grupo 2: Del 19 al 23 de Junio de 15:00 a 18:00h.
Descripción
Spark es una de las herramientas más populares para la manipulación y análisis estadístico de grandes volúmenes de datos. No solo en entornos académicos sino también en las grandes empresas.
El stack de aplicaciones para el big data ha sido bastante inestable durante los últimos años, pero se está asentando en una arquitectura en la que Hadoop sirve esencialmente de almacén de datos pero la manipulación de los mismos se delega en otras herramientas, de entre las que destaca Spark. Spark, además, cuenta con un conjunto de librerías muy potentes para el análisis de datos en paralelo, MLlib.
Objetivos
El objetivo de este curso es que el alumno se familiarice con entornos para la manipulación y análisis estadístico de grandes volúmenes de datos y, en concreto, con Spark, con la vista puesta tanto en las aplicaciones académicas como en las empresariales.
Programa del curso
- Introducción a Spark en el contexto del ecosistema actual de herramientas big data.
- Instalación y configuración
- Manipulación de datos en Spark con R y Python.
- Introducción a MLlib y la modelización estadística con Spark.
Evaluación
Al final del curso, se propondrán una serie de proyectos diversos de análisis de datos, de los que el alumno deberá elegir y desarrollar el que más se aproxime a sus intereses.
Prerrequisitos
El alumno ha de estar familiarizado con R y los fundamentos de la modelización estadística. Durante el curso se incursionará brevemente en Python, pero no será necesario el dominio de este lenguaje.
Dirigido a
- Personas que quieran mejorar sus expectativas laborales
- Investigadores que quieran poder disponer de una herramienta para el análisis masivo de datos
Aula
Grupo 1: PC3
Grupo 2: PC2
Share: