Big Data Management (Gestión de Repositorios Big Data)

Título del Curso

Big Data Management (Gestión de Repositorios Big Data).

Profesorado

Oscar Romero, Sergi Nadal y Petar Jovanovic.

Oscar Romero (Universitat Politècnica de Catalunya. Eng.Serveis i Sistemes d'Informació) es profesor agregado de la UPC. Graduado como Ingeniero Informático por la UPC, obtuvo su PhD en Computación en 2010 en la misma universidad. Es miembro de los grupos de investigación DTIM (http://www.essi.upc.edu/dtim/) y MPI (http://imp.upc.edu/en) de la UPC. Actualmente es el coordinador local del Erasmus Mundus Joint Master Programme in Information Technologies for Business Intelligence (IT4BI) y director del postgraduado en Big Data Management and Analytics postgraduate de la UPC School. Sus líneas de investigación primarias son modelización y almacenamiento de datos para sistemas de nueva generación de Business Intelligence y Big Data.

Sergi Nadal es Ingeniero en Informática por la UPC. Máster IT4BI (Information Technologies for Business Intelligence) por la ULB, UFRT y UPC. Es miembro de los grupos de investigación DTIM (http://www.essi.upc.edu/dtim/) y MPI (http://imp.upc.edu/en) de la UPC. Actualmente es estudiante de Doctorado IT4BI-DC (Information Technologies for Business Intelligence Doctoral College) en la UPC y la ULB, y profesor en el posgrado en Big Data Management and Analytics de la UPC School. Ha trabajado como consultor en BI y como investigador en Big Data. Su ámbito de investigación se sitúa en el área de Business Intelligence, Big Data management y metadata management.

Petar Jovanovic es Ingeniero en Informática por la Universidad de Belgrado. Máster en Ciencias de la Computación por la UPC. Es miembro de los grupos de investigación DTIM (http://www.essi.upc.edu/dtim/) y MPI (http://imp.upc.edu/en) de la UPC. Actualmente es estudiante de Doctorado IT4BI-DC (Information Technologies for Business Intelligence Doctoral College) en la UPC y la ULB, y profesor de los cursos "Data Warehousing" (del máster en Business Intelligence y Data Mining de la Facultad de Informática de Barcelona; FIB), "Conceptos para Bases de Datos Especializadas" (del grado en Informática de la FIB) y del posgrado en Big Data Management and Analytics de la UPC School. Su ámbito de investigación se sitúa en el área de Business Intelligence, Data Warehousing, Big Data management y sistemas de procesamiento de datos distribuidos.

Idioma del curso

Castellano.

Programación del curso

Del 27 de Junio al 1 de Julio, de 8 a 11h.

Descripción

La digitalización de la mayoría de procesos diarios de las empresas así como de las acciones cotidianas de los ciudadanos han dado lugar a lo que se conoce como "data deluge". La generación de infinidad de datos digitales (tales como logs de aplicaciones, monitorización de sensores, datos generados por sistemas informáticos o disponibles de forma abierta en la web, etc.) supone un reto desde el punto de vista de la gestión de los datos, es decir: recolección, almacenamiento y proceso. Big Data aparece como solución a estos retos, y aspira a analizarlos para transformar los datos en información y conocimiento que dé ventajas competitivas a las empresas / organizaciones.

La universalización de las bases de datos relacionales como repositorios de almacenamiento de datos habían facilitado el acceso a los datos por parte de analistas de datos. No obstante, las tecnologías de almacenamiento de datos en entornos Big Data (típicamente basadas en Cloud Computing y conocidas como sistemas NoSQL) dificultan el acceso de los datos a perfiles no informáticos y representan barreras tecnológicas de entrada para los analistas.

En este curso introduciremos las principales tecnologías NoSQL disponibles en el mercado y nos centraremos en el ecosistema Hadoop. El objetivo es aprender a utilizar, a nivel usuario, las tecnologías NoSQL para almacenar y procesar datos. Como tal, la mayoría del contenido del curso será práctico y se contará con un cluster Hadoop para familiarizar a los asistentes con las tecnologías descritas.

Lista de contenidos:

1. Introducción a Big Data y NoSQL (teórico / introductorio)

- Limitaciones de las bases de datos relacionales.

- Tipos de bases de datos NoSQL: key-value, document-store, graph databases.

- Pros y contras de cada tipo de bases de datos NoSQL.

- Contratación de servicios en el Cloud.

2. Introducción a Hadoop (práctico)

- Acceso a un cluster Hadoop como usuario (inserción, consulta, procesamiento de datos): HDFS, Spark.

- Introducción a herramientas de análisis de datos sobre Hadoop: MLlib.

- Gestión de "data streams" en Hadoop: Spark Streaming.

3. Caso de Uso (práctico)

- Dado un dataset, almacenarlo en Hadoop y procesarlo con Spark / MLlib.

*** Nota: El módulo 2 constará de pequeñas explicaciones teóricas, seguidas de un tutorial paso a paso hecho por los profesores y un pequeño ejercicio, simulando el tutorial, a hacer por los estudiantes en grupos de 2-3 personas. El módulo 3 es un pequeño ejercicio práctico libre, a hacer en grupo, dado un dataset y un enunciado.

Evaluación

El módulo 3, dado un dataset, se requerirá cargarlo en el sistema y procesarlo con MLlib (objetivo abierto). Tendrá una entrega que se evaluará.

Aula

PC2 (July 1: TBA)