Temas en Big Data: Metodología y Aplicaciones
Título del curso: TEMAS EN BIG DATA: METODOLOGÍA Y APLICACIONES
Impartido por: Mikel Arizaleta, Emiliano Carluccio, Marçal Molins, Miquel Camprodon. Kernel Analytics.
Mikel Arizaleta, https://www.linkedin.com/in/arizaletadelshorts, is a Data Scientist at Kernel Analytics. He holds a double degree in Mathematics and Computer Science by the UPC. His background includes recommendation systems, segmentation, cross/up selling, predictive modeling for customer lifecycle management and forecasting time series. He is focused on improving the performance and speed of different data modeling systems (mainly in R and SAS).
Emiliano Carluccio, https://www.linkedin.com/pub/emiliano-carluccio/26/841/121, is a Data Scientist at Kernel Analytics. He is an economist with a special interest in quantitative methods and data analysis. He has extended experience in time series analysis, demand forecasting and supply chain optimization. At Kernel, he is currently investigating applied optimization techniques for maximizing RTB revenues and click through rates in a big data framework
Marçal Molins, https://www.linkedin.com/in/molins, is a Data Scientist at Kernel Analytics. He holds a degree in Telecommunications Engineering by the UPC. His background in predictive modeling includes personalized recommendation systems, geolocated data analysis and customer lifecycle models. He is currently focused on the development of large-scale, real-time recommendation algorithms and their use in high product rotation scenarios.
Miquel Camprodon, http://www.linkedin.com/pub/miquel-camprodon-masnou/25/547/7a7, is a Data Scientist at Kernel Analytics. He holds a double degree in Mathematics and Computer Science and a Master in Computing, all of them from the UPC. He has experience in predictive modelling, having collaborated in projects of predictive marketing / churn prediction, demand forecasting, and text mining, where he has applied machine learning methods to automatize text classification and categorization.
Idioma del curso: Español.
Fechas y horarios del curso: 25 de junio de 15 a 18 h, días 26, 27 i 30 de 15 a 19 h.
Lugar: aula PC2
Tipo de activitat y carga lectiva: Curso de 15 horas.
Descripción:
Objetivo:
La información generada por sensores, dispositivos móviles, o la navegación en la red, junto a los avances del mercado en proporcionar capacidad de almacenamiento digital barata, suponen un reto analítico y tecnológico para las empresas. El resultado es el desarrollo de metodologías novedosas que permiten el descubrimiento de patrones de información ocultos en los datos para la generación de valor. A día de hoy, estas herramientas son explotadas por las empresas más innovadoras, como Amazon, Netflix, Facebook, o Google, y representan sus mayores fuentes de ventaja competitiva en el mercado. En este curso los estudiantes entraran en contacto con los elementos teóricos y la implementación práctica de algunas de las aplicaciones más rompedoras de la revolución del Big Data.
Programa:
Módulo 1. Análisis de grafos: El algoritmo PageRank de Google (3hs)
- Introducción a la teoría de grafos: definición y categorías
- Estructura de los datos en los grafos y teoremas relevantes
- Herramientas estadísticas y software para el análisis de grafos
- El algoritmo PageRank de Google: definición y solución básica
Impartido por: Mikel Arizaleta
Módulo 2. Real time bidding: publicidad online (4hs)
- Publicidad online: estándares y métricas básicas
- Los anuncios online como un problema de subasta
- Algoritmos greedy. Enfoque analítico al problema del emparejamiento óptimo
- Aplicación real en la visualización de AdWords en la navegación web
Impartido por: Emiliano Carluccio
Módulo 3. Sistemas de recomendación personalizada: El algoritmo de Netflix (4hs)
- Collaborative filtering
- El enfoque usuario-usuario en los algoritmos KNN
- Problemáticas y desafíos: los algoritmos híbridos
- Métricas de evaluación y estrategia óptima
Impartido por: Marçal Molins
Módulo 4. Text analytics: Sentiment analysis en Twitter (4hs)
- Preparación de los datos: parsing, tokenization, stemming, expresiones regulares
- Clasificación de los documentos: modelos determinísticos y probabilísticos
- Medición de la similitud de los documentos: clustering y clasificación
- Recursos informáticos para el text mining
Impartido por: Roger Forcada
Evaluación:
Los estudiantes deberán demostrar haber asimilado algunos de los conceptos impartidos en el curso resolviendo un trabajo práctico que implique una parte de programación en R y el uso de un dataset
Share: