Introducción a la Ciencia de Datos 2022
Este es un curso introductorio a la ciencia de datos, con énfasis principalmente en los fundamentos matemáticos y estadísticos de los principales algoritmos de aprendizaje automático y reconocimiento de patrones. El tema central del curso es el estudio de métodos para obtener información útil a partir de datos. Al final del curso, los estudiantes comprederán, tanto en la teoría como en la práctica, las etapas necesarias para producir un estudio o análisis de datos, desde la concepción de un problema, hasta la generación de un informe técnico de análisis. Para aprovechar de mejor manera el curso, es recomendable que los estudiantes estén familiarizados con temas de álgebra lineal, cálculo, estadística matemática, y tener conocimientos de al menos un lenguaje de programación (e.g. Python, R, Matlab, C++, u otros).
Programa del curso
Horario
- Lunes y miércoles, 17:20 a 18:55 horas. Laboratorio: a definir.
Office Hours
- Viernes de 18:00 a 20:00 horas, o por solicitud del estudiante. También pueden enviar sus dudas por correo electrónico.
Material del curso
No. | Fecha | Tópicos | Actividades |
---|---|---|---|
01 | 10.01.2022 | Introducción Aula 01 |
(I. Carmichael, J.S. Marron) Data Science vs. Statistics: Two Cultures? |
02 | 12.01.2022 | Repaso de probabilidad I: espacios de probabilidad. Aula 02 |
Ver Chung, Capítulo 1. |
03 | 17.01.2022 | Probabilidad condicional Aula 03 |
Ver Lefebvre, capítulo 2, pp. 27–5 44 |
04 | 19.01.2022 | Ley de probabilidad total. Regla de Bayes. Aula 04 |
Lefebvre, capítulo 2, pp. 27–54. |
05 | 24.01.2022 | Repaso de probabilidad II: variables aleatorias. Aula 05 |
Lefebvre, sección 3.1, pp. 55–60. |
06 | 26.01.2022 | Independencia de v.a. Resúmenes de distribuciones. Aula 06 |
Lefebvre, sección 3.2, pp. 61–69. |
L1 | 29.01.2022 | Lista de ejercicios 1 Fecha de entrega: Sábado 12 de febrero. |
|
07 | 31.01.2022 | Esperanza condicional. Covarianza y correlación. Entropía. Aula 07 |
|
08 | 02.02.2022 | Distribuciones Discretas. Resúmenes para distribuciones continuas. Aula 08 |
Lefevbre, sección 3.3. |
09 | 02.02.2022 | Distribuciones Continuas. Distribuciones multivariadas. Aula 09 |
Material sobre v.a. continuas y resúmenes de distribuciones. Lefebvre, sección 3.3, pp. 70–80. |
10 | 07.02.2022 | Análisis de Componentes Principales (PCA). Aula 10 |
Duda y Hart, sección 10.13.1, pp. 568-. |
11 | 09.02.2022 | PCA vs. Teorema Espectral y descomposición SVD. Aula 11 Aula 11 notas |
Hastie, Tibshirani, Friedman, sección 14.5. |
12 | 14.02.2022 | Proyección PCA. Ejemplos. Aula 11 notas |
|
13 | 16.02.2022 | Interpretación PCA. Aula 12 |
|
14 | 21.02.2022 | Escalamiento multidimensional. Aula 13 |
|
15 | 23.02.2022 | PCA Robusto y extensiones PCA. Aula 14 |
|
L2 | 27.02.2022 | Lista de ejercicios 2 crimes.dat weather.csv Fecha de entrega: Sábado 12 de marzo. |
|
16 | 02.03.2022 | Kernel PCA. Ejemplos de transformaciones no-lineales. Aula 15 |
|
17 | 07.03.2022 | ICA (Análisis de componentes independientes). NNMF. Aula 16 |
|
18 | 09.03.2022 | Métodos Locales I: Isomap, t-SNE, LLE, SOM. Aula 17 |
Más ejemplos de visualizaciones con SOM Minisom |
19 | 14.03.2022 | Métodos Locales II: Spectral Embedding, Autoencoders, Prob. PCA, Projection-Pursuit. Aula 18 |
Software para visualización de datos. Contiene una implementación de projection pursuit. http://ggobi.org/ |
20 | 16.03.2022 | Estimación empírica de distribuciones. Aula 19 |
|
L3 | 19.03.2022 | Lista de ejercicios 3 hpi-data-2016.xlsx Fecha de entrega: Domingo 03 de abril. |
|
21 | 21.03.2022 | Técnicas de visualización. |
visualisation.ipynb |
22 | 23.03.2022 | Imputación de datos. Aula 21 |
imputation.ipynb hpi-data-2016.csv |
23 | 28.03.2022 | Agrupamiento jerárquico. Aula 22 |
|
24 | 04.04.2022 | Ejemplos de agrupamiento jerárquico. |
hierarchical.ipynb |
25 | 06.04.2022 | K-medias. Diagrama de Voronoi. Variantes de K-medias. Aula 23 |
|
26 | 18.04.2022 | Presentación de proyectos. |
|
27 | 20.04.2022 | Presentación de proyectos. |
|
28 | 25.04.2022 | Función de verosimilitud. Modelos de mezclas gaussianas. Aula 24 |
|
29 | 27.04.2022 | Agrupamiento espectral. Aula 25 |
|
30 | 02.05.2022 | Otros métodos de agrupamiento: mean-shift, DBSCAN, OPTICS, BIRCH. Aula 26 |
|
31 | 02.05.2022 | Métricas para agrupamiento. Aula 27 |
|
L4 | 03.05.2022 | Lista de ejercicios 4 heptatlon.csv Fecha de entrega: Viernes 13 de mayo. |
|
32 | 04.05.2022 | Modelación predictiva. KNN, K vecinos más cercanos. Aula 28 |
|
33 | 09.05.2022 | El clasificador bayesiano óptimo. Aula 29 |
|
34 | 11.05.2022 | El clasificador bayesiano óptimo II. Naive Bayes. Aula 30 Aula 30 notas |
|
35 | 15.05.2022 | Análisis discriminante. Aula 31 |
|
36 | 16.05.2022 | Regresión logística. Aula 32 |
|
37 | 18.05.2022 | El perceptrón. Máquinas de vectores de soporte (SVM). Aula 33 |
Perceptron Demo Tensorflow Playground |
38 | 25.05.2022 | Árboles de decisión. |
|
39 | 27.05.2022 | Métodos ensemble: bagging, boosting, stacking. Random Forests. |
Material adicional (scripts)
No. | Fecha | Tópicos | Material |
---|---|---|---|
00 | 02.02.2022 | Instalación de librerías y ambiente de trabajo Python Anaconda, Jupyter-lab. | Anaconda+Tensorflow+Jupyter installation guide Archivos auxiliares: plotmatrix.py test.ipynb |
01 | 07.02.2022 | Ejemplo de exploración de datos. | iris.ipynb |
02 | 14.02.2022 | Lectura archivo csv. Exploración de datos. Estandarización. Descomposición SVD. Análisis de componentes principales. | pca.ipynb deport.csv |
03 | Ejemplo de escalamiento multidimensional. | ||
04 | 07.03.2022 | Ejemplos de ICA. | ica_examples.ipynb horse.jpg morro.jpg plane.jpg race.jpg |
05 | 07.03.2022 | Ejemplo de NNMF. | nnmf.ipynb |
06 | 09.03.2022 | Ejemplos de Manifold Learning. | manifold.ipynb |
07 | 14.03.2022 | Ejemplo de SOM. | democracy_index.csv democracy_index_som.ipynb |
08 | 16.03.2022 | Ejemplos de distribución empírica por kernel. | 1D-kernel-density.ipynb |
09 | 06.04.2022 | Ejemplos de K-means. Clustering con imágenes. | k-means.ipynb horse.jpg tree.jpg |
10 | 25.04.2022 | Ejemplos mezclas gaussianas: Gaussian mixture models. | gmm.ipynb |
11 | 27.04.2022 | Ejemplos de agrupamiento espectral. | spectral1.ipynb spectral2.ipynb |
12 | 03.05.2022 | Ejemplos de mean-shift, DBSCAN, OPTICS y BIRCH. | density-based.ipynb comparison.ipynb |
13 | 03.05.2022 | Método de las silhouettes. | silhouette.ipynb |
14 | 05.05.2022 | Ejemplo de KNN. | knn.ipynb |
Primer Proyecto
Análisis de datos de EcoBici.
Recursos:
Sitio web oficial de EcoBici https://www.ecobici.cdmx.gob.mx/
Datos abiertos https://www.ecobici.cdmx.gob.mx/es/informacion-del-servicio/open-data
No. | Fecha | Tópicos | Material |
---|---|---|---|
P1 | 16.03.2022 | Primer proyecto Proyecto 1 |
Coordenadas de estaciones stations.json stations.csv |
. | 18.04.2022 | Presentaciones | |
. | 20.04.2022 | Presentaciones | |
. | 21.04.2022 | Entrega del reporte, código y presentación. |
Presentaciones del primer seminario (Datos Ecobici)
No. | Fecha | Expositor | Tópicos |
---|---|---|---|
01 | 18.04.2022 | Elder |
|
02 | 18.04.2022 | Karina |
|
03 | 18.04.2022 | Lucha |
|
04 | 20.04.2022 | Carlos |
|
05 | 20.04.2022 | Leonel |
|
06 | 20.04.2022 | Rafael |
Segundo Proyecto
Análisis de datos + Agrupamiento + Clasificación + Regresión. Tema libre, previo visto bueno.
No. | Fecha | Tópicos | Material |
---|---|---|---|
. | 13.05.2022 | Última fecha para definir tema. | |
. | 30.05.2022 | Presentaciones | |
. | 01.06.2022 | Presentaciones | |
. | 03.06.2022 | Entrega del reporte, código y presentación. |
Material sobre Python (textos, videos)
Referencias
Textos:
-
T. Hastie, R. Tibshirani, J. Friedman (2013). The Elements of Statistical Learning.
-
K. Murphy (2012). Machine Learning: a Probabilistic Perspective.
Referencias adicionales:
-
B. Everitt, T. Hothorn (2011). An Introduction to Applied Multivariate Analysis with R
-
K. Fukunaga (1990). Introduction to Statistical Pattern Recognition.
-
C. Giraud (2015). Introduction to High-Dimensional Statistics.
-
L. Devroye, L. Györfi, G. Lugosi (1996). A Probabilistic Theory of Pattern Recognition.
-
S. Shalev-Shwartz, S. Ben-David (2014). Understanding Machine Learning: From Theory to Algorithms.