Big Data y Estadística
Título del curso
Estadística y Big Data
Impartido por
Pedro Delicado, Dept. Estadística i Investigació Operativa, UPC.
Pedro Delicado. Licenciado en Matemáticas (U. Complutense de Madrid, 1990) y doctor en Economía (U. Carlos III de Madrid, 1995). Profesor de la Universitat Pompeu Fabra (1995-2000) y actualmente de la UPC. Su docencia se ha centrado principalmente en probabilidad, estadística matemática y estadística no paramétrica. Sus principales temas de investigación son estadística no paramétrica, análisis de datos funcionales, reducción de la dimensionalidad y estadística espacial, con aplicaciones en demografía y análisis de datos electorales. Autor de más de 30 artículos científicos, ha (co-)dirigido 4 tesis doctorales y ha sido investigador principal de 5 proyectos de investigación competitivos. Vicedecano (Jefe de Estudios de Estadística) de la Facultad de Matemàtiques i Estadística (UPC) entre 2009 i 2012.
Lengua del curso
Castellano
Horario del curso
Julio 6 - 10 de 4:00 pm a 7:00 pm
Tipo de actividad y carga lectiva
Curso de 15 horas.
Descripción
En este curso se analiza el impacto que el reciente auge de los Big Data tiene en la Estadística. Se intentará dar respuestas a preguntas como las siguientes: ¿En qué se diferencian los Big Data de los conjuntos de datos tradicionales? ¿Qué implicaciones tienen estas diferencias en la forma de hacer Estadística con Big Data? ¿Qué puede aportar la Estadística al análisis de Big Data y por qué estas aportaciones tienen un valor diferencial? Se hará un recorrido por trabajos (artículos científicos, software) recientes en el campo de la Estadística dedicados al análisis de Big Data.
Programa
- Introducción a los Big Data.
- Un ejemplo paradigmático: Google Flu Trends.
- Algunos problemas tipo en Big Data.
- Herramientas estadísticas de uso potencial en Big Data.
- False discovery rate.
- Lasso.
- Bag of little bootstrap.
- Factorización de matrices de rango bajo.
- Técnicas basadas en distancias.
- Una ojeada a aspectos computacionales.
- Cómo gestionar Big Data?
- Herramientas de R para Big Data.
- R + Hadoop + MapReduce.
- Estadística y Big Data: el futuro.
Referencias
Candès, E. J., Li, X., Ma, Y., and Wright, J. Robust principal component analysis? Journal of the ACM, 58(3):1–37, 2011.
Efron, B. (2010). Large-scale inference: empirical Bayes methods for estimation, testing, and prediction, Volume 1. Cambridge University Press.
Fan, J., F. Han, and H. Liu (2014).Challenges of big data analysis.National Science Review, nwt032.
Hand, D. J. (2013). Data, not dogma: Big data, open data, and the opportunities ahead. In Advances in Intelligent Data Analysis XII, pp. 1{12. Springer.
Jordan, M. I. (2013). On statistics, computation and scalability. Bernoulli 19(4), 1378-1390.
Kleiner, A., A. Talwalkar, P. Sarkar, and M. I. Jordan (2014). A scalable bootstrap for massive data. Journal of the Royal Statistical Society: Series B (Statistical Methodology).
Mayer-Schonberger, V. and K. Cukier (2013). Big data: A revolution that will transform how we live, work, and think. Houghton Miin Harcourt.
National.Research.Council (2013). Frontiers in Massive Data Analysis. The National Academies Press.
Tibshirani, R. (2011). Regression shrinkage and selection via the lasso: a retrospective. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 73(3), 273-282. With discussion.
Metodología
Se combinarán sesiones expositivas y prácticas.
Evaluación
El alumnado deberá realizar uno de los dos trabajos siguientes:
- El análisis de un conjunto de Big Data real.
- El estudio en profundidad de un artículo científico sobre Big Data.
Classroom
PC3
Share: