Introducción a la Ciencia de Datos 2021
Este es un curso introductorio a la ciencia de datos, con énfasis principalmente en los fundamentos matemáticos y estadísticos de los principales algoritmos de aprendizaje automático y reconocimiento de patrones. El tema central del curso es el estudio de métodos para obtener información útil a partir de datos. Al final del curso, los estudiantes comprederán, tanto en la teoría como en la práctica, las etapas necesarias para producir un estudio o análisis de datos, desde la concepción de un problema, hasta la generación de un informe técnico de análisis. Para aprovechar de mejor manera el curso, es recomendable que los estudiantes estén familiarizados con temas de álgebra lineal, cálculo, estadística matemática, y tener conocimientos de al menos un lenguaje de programación (e.g. Python, R, Matlab, C++, u otros).
Programa del curso
Horario
- Lunes y jueves, 15:40 a 17:20 horas. Laboratorio: a definir.
Office Hours
- Viernes de 16:00 a 17:00 horas, o por solicitud del estudiante. También pueden enviar sus dudas por correo electrónico.
Material del curso
No. | Fecha | Tópicos | Actividades |
---|---|---|---|
01 | 11.01.2021 | Introducción Aula 01 |
(I. Carmichael, J.S. Marron) Data Science vs. Statistics: Two Cultures? |
02 | 14.01.2021 | Probabilidad Aula 02 |
(K.-L. Chung) A Course in Probability Theory |
03 | 18.01.2021 | Proba. condicional Variables aleatorias Aula 03 |
Lefebvre, capítulo 2, pp. 27–54. (M. Lefebvre) Basic Probability with Applications |
L1a | 21.01.2021 | Lista de ejercicios 1, parte A Entregar sólo ejercicios: 1, 7, 8, 11, 12. Se entregarán junto con la parte B. |
|
04 | 21.01.2021 | Variables aleatorias Aula 04 |
Lefebvre, sección 3.1, pp. 55–60 |
05 | 25.01.2021 | Variables aleatorias discretas. Resúmenes de distribuciones. Aula 05 |
Lefebvre, sección 3.2, pp. 61–69 |
06 | 28.01.2021 | Variables aleatorias continuas. Resúmenes de distribuciones. Aula 06 |
Material sobre v.a. continuas y resúmenes de distribuciones. Lefebvre, sección 3.3, pp. 70–80 |
07 | 30.01.2021 | Ejemplos de distribuciones. Aula 07 |
Material sobre distribuciones. Lefebvre, capítulos 3 y 4 (el 4 es sobre multivariadas). |
L1b | 30.01.2021 | Lista de ejercicios 1, parte B Entregar sólo ejercicios: 1, 2, 4, 5. Fecha de entrega: Lunes 8 de febrero. |
|
08 | 01.02.2021 | Técnicas de visualización. Análisis de componentes principales. Aula 08 |
|
09 | 04.02.2021 | Análisis de componentes principales Aula 09 |
|
10 | 08.02.2021 | Interpretación de PCA. Errores comunes. Ejemplos y aplicaciones. Aula 10 |
Ver Libro de Duda y Hart. |
11 | 11.02.2021 | Escalamiento multidimensional Aula 11 |
Material sobre el problema de transformar una distribución uniforme. Distribución uniforme en la esfera |
L2 | 13.02.2021 | Lista de ejercicios 2 crimes.dat weather.csv Fecha de entrega: Martes 23 de febrero. |
|
12 | 15.02.2021 | PCA Robusto. Kernel PCA. Aula 12 |
|
13 | 18.02.2021 | Variables latentes. ICA. Aula 13 |
|
14 | 22.02.2021 | Factoracion no-negativa de matrices Aula 14 |
El archivo no está completo. Falta agregar el material sobre análisis semántico latente: LSA, LDA y FA y ejemplos. |
15 | 25.02.2021 | Métodos locales I Aula 15 |
|
L3 | 28.02.2021 | Lista de ejercicios 3 Fecha de entrega: Jueves 11 de marzo. |
|
16 | 01.03.2021 | Métodos locales II Aula 16 |
Faltan ejemplos de SOM. |
17 | 04.03.2021 | Funciones kernel. Construcción de distribuciones empíricas. | Pendiente de agregar los ejemplos en Python. Estaré agregando las notas más adelante. |
L4 | 07.03.2021 | Lista de ejercicios 4 hpi-data-2016.xlsx Fecha de entrega: Lunes 22 de marzo. |
|
18 | 08.03.2021 | Agrupamiento jerárquico Aula 18 |
Ejemplos de visualización de dendrogramas: Paper Covid19-1 Paper Covid19-2 |
19 | 11.03.2021 | K-medias, K-medianas, K-medioides, Fuzzy K-medias. Aula 19 |
Comentarios sobre la maldición de la dimensionalidad Raúl Rojas dimensionality.pdf Ver también Cap. 1 libro de Giraud. |
20 | 18.03.2021 | Mezclas gaussianas. Algoritmo EM. Aula 20 |
|
21 | 22.03.2021 | Agrupamiento espectral. Aula 21 |
|
P1 | 22.03.2021 | Proyecto 1 Fecha de entrega: Lunes 12 de abril. Presentaciones: Lunes 12 y Jueves 15 de abril. Coordenadas estaciones: stations.json stations.csv |
|
22 | 25.03.2021 | Métodos basados en densidades. Aula 22 |
|
23 | 29.03.2021 | Métricas para métodos de agrupamiento. Aula 23 |
|
24 | 05.04.2021 | Modelación predictiva. K vecinos más cercanos. Aula 24 |
Algunos demos interactivos Demo1 Demo2 |
L5 | 06.04.2021 | Lista de ejercicios 5 heptatlon.csv Fecha de entrega: Viernes 23 de abril. |
|
25 | 08.04.2021 | El clasificador bayesiano óptimo. Aula 25 |
|
26 | 12.04.2021 | Ejemplos de clasificador bayesiano. Clasificador Naive Bayes. Aula 26 |
Algunos ejemplos Ejemplo 1 (2 normales) Ejemplo 2 (3 normales) |
27 | 15.04.2021 | Análisis discriminante (LDA y QDA). Aula 27 |
|
S1 | 19.04.2021 | Presentación de seminarios. | |
S1 | 22.04.2021 | Presentación de seminarios. | |
S2 | 25.04.2021 | Propuestas de proyectos finales | |
28 | 26.04.2021 | Clasificadores lineales. Clasificador logístico. Aula 28 |
Demo de clasificador lineal. Demo |
29 | 29.04.2021 | Perceptrón. Máquinas de vectores de soporte. Aula 29 |
Rosenblatt Perceptron Tensorflow Playground |
L6 | Lista de ejercicios 6 Fecha de entrega: Domingo 16 de mayo. |
||
30 | 03.05.2021 | Árboles de decisión. Aula 30 |
Para una breve historia y origen de árboles de decisión ver Paper Wei-Yin Loh Slides |
31 | 06.05.2021 | Random forests. Bagging y Boosting. Aula 31 |
|
32 | 13.05.2021 | Modelo de regresión lineal. Mínimos cuadrados ordinarios. (OLS) Aula 32 |
|
33 | 17.05.2021 | Gráficos de diagnóstico Aula 33 |
|
L7 | 17.05.2021 | Lista de ejercicios 7 spambase.csv winequality-white.csv Fecha de entrega: Jueves 10 de junio. |
|
34 | 20.05.2021 | Otros métodos de Regresión. Selección de variables y modelos. Aula 34 |
|
35 | 24.05.2021 | Métricas para clasificación. Validación cruzada. Aula 35 |
|
36 | 24.05.2021 | Redes neuronales multicapa. Redes Neuron. 1 Redes Neuron. 2 Charla Delvas |
Taller Keras 1 Material Taller Keras 1 |
37 | 27.05.2021 | Redes neuronales convolucionales. Detalles de implementación en Keras. |
Taller Keras 2 Material Taller Keras 2 |
Material adicional (labs)
No. | Fecha | Tópicos | Material |
---|---|---|---|
00 | 01.02.2021 | Instalación de librerías y ambiente de trabajo Python Anaconda, Jupyter-lab. | Anaconda+Tensorflow+Jupyter installation guide Archivos auxiliares: plotmatrix.py test.ipynb |
. | 04.02.2021 | Ejemplo de exploración de datos. | iris.ipynb |
01 | 06.02.2021 | Lectura archivo csv. Exploración de datos. Estandarización. Descomposición SVD. Análisis de componentes principales. | lab01.ipynb lab01_R.ipynb deport.csv |
. | 08.02.2021 | Errores comunes en PCA. | meteo-users.ipynb meteo-users.csv |
02 | 13.02.2021 | Procesamiento de imágenes. RGB a escala de grises. Crop. Histogramas. Transformaciones básicas. | lab02.ipynb quetzal.png |
. | 18.02.2021 | Ejemplo de ICA. | ICA_examples.ipynb horse.jpg morro.jpg plane.jpg race.jpg |
. | 22.02.2021 | Ejemplo de NNMF. Sistemas de recomendación. | nnmf-recommender-system.ipynb |
. | 01.03.2021 | Ejemplo de KernelPCA. Ejemplos de manifold learning. | manifold.ipynb |
. | 01.03.2021 | Ejemplo de SOM. | DemocracyIndex.ipynb democracy_index.csv |
. | 04.03.2021 | Funciones de base (kernel) radial. | |
03 | 13.03.2021 | Agrupamiento jerárquico. K-medias. | hierarchical.ipynb k-means.ipynb horse.jpg |
. | 18.03.2021 | Gaussian misture models. Algoritmo EM. | gmm.ipynb |
. | 22.03.2021 | Agrupamiento espectral. | spectral1.ipynb spectral2.ipynb |
. | 25.03.2021 | Métodos basados en densidad. Comparación. | density-based.ipynb comparison.ipynb |
. | 25.03.2021 | Métricas de evaluación para agrupamiento. | silhouette.ipynb |
04 | 17.04.2021 | Clasificador y regresor Knn. Clasificador Naive Bayes. | knn.ipynb bayes.ipynb |
. | 26.04.2021 | Clasificador logístico. | logistic.ipynb |
. | 01.05.2021 | Clasificador SVM. | |
. | 03.05.2021 | Árboles de decisión. | tree.ipynb |
. | 06.05.2021 | Random forests. | random-forest.ipynb |
05 | 15.05.2021 | Regresion líneal ordinaria. | ols.ipynb plot_diagnostic.py |
Presentaciones del primer seminario (Datos Ecobici)
No. | Fecha | Expositor | Tópicos |
---|---|---|---|
01 | 19.04.2021 | Juan Lorthiois Presentación |
Comparación de la demanda anterior/posterior de pandemia Covid 19. Perfilado o caracterización de un usuario típico. Determinación geográfica de estaciones con mayor demanda. Clusterización y diferenciación t-SNE por variable. |
02 | 19.04.2021 | José Ramos Presentación |
Modelo de decisión de velocidad media de los usuarios. Determinación de variables de mayor impacto en la predicción de la velocidad media de recorrido. Clasificación Naive Bayes de velocidad del usuario: lento/rápido. |
03 | 19.04.2021 | Rodrigo Morales Presentación |
Modelos para localización óptima de nuevas estaciones. Uso de fuentes diversas para predicción: INEGI, población flotante, geolocalización, nivel socioeconómico. Comparación de criterios de localización óptima. |
04 | 19.04.2021 | Pablo Noack Presentación |
Distribuciones de tiempos de recorrido y desplazamientos. Relación geoespacial contra distribuciones de frecuencia de demanda. Análisis de la matriz de frecuencias. Clusterización t-SNE por frecuencia. |
05 | 22.04.2021 | José López Presentación |
Estadísticas comparativas antes y después de Covid-19. Segmentación de uso por edad y género. Pronósticos de demanda máxima y mínima de bicicletas. Forecasting de demanda con series de tiempo. |
06 | 22.04.2021 | Javier Mejía Presentación |
Análisis de la encuesta sobre uso Ecobici. Diseño de visualizaciones intuitivas. Comparación de rutas y tiempos promedio por weekday/weekend. Mapas de calor zonas de mayor demanda. Matriz de frecuencias. |
07 | 24.04.2021 | José Menéndez Presentación |
Comparativa de distribuciones de edad, por género y fecha. Análisis de demanda en función de la época del año, y en función de la localización. Proyecciones y agrupamiento por zona geográfica. |
08 | 24.04.2021 | Lorena Beltrán Presentación |
Estadísticas descriptivas de base de datos Ecobici. Distribuciones por cada variable. Análisis de componentes principalesy análisis de correlación. Detección de zonas de mayor actividad. Agrupamiento t-SNE. |
Presentaciones del segundo seminario (Proyectos)
No. | Fecha | Expositor | Título |
---|---|---|---|
01 | 03.06.2021 | José Menéndez Presentación |
Clasificador de gestos de manos |
02 | 03.06.2021 | José López Presentación |
Clasificador para detección de cáncer de piel |
03 | 03.06.2021 | Rodrigo Morales Presentación |
Alternativas a la data de movilidad para la caracterización de sectores comerciales |
04 | 03.06.2021 | José Ramos Presentación |
Prediciendo hits y clustering de canciones |
05 | 03.06.2021 | Lorena Beltrán Presentación |
Equidad de género, un problema del siglo XXI |
06 | 03.06.2021 | Juan Lorthiois Presentación |
Identificación de patrones en las fatalidades ocurridas durante enfrentamientos con la policía norteamericana |
07 | 03.06.2021 | Javier Mejía Presentación |
Clasificando géneros musicales a partir de la letra |
08 | 03.06.2021 | Pablo Noack Presentación |
Análisis de textos y contenidos en el dataset Old Newspapers |
Material sobre Python (textos, videos)
Referencias
Textos:
-
T. Hastie, R. Tibshirani, J. Friedman (2013). The Elements of Statistical Learning.
-
K. Murphy (2012). Machine Learning: a Probabilistic Perspective.
Referencias adicionales:
-
B. Everitt, T. Hothorn (2011). An Introduction to Applied Multivariate Analysis with R
-
K. Fukunaga (1990). Introduction to Statistical Pattern Recognition.
-
C. Giraud (2015). Introduction to High-Dimensional Statistics.
-
L. Devroye, L. Györfi, G. Lugosi (1996). A Probabilistic Theory of Pattern Recognition.
-
S. Shalev-Shwartz, S. Ben-David (2014). Understanding Machine Learning: From Theory to Algorithms.