Elements of Machine Learning 2023
Este es un curso introductorio a la ciencia de datos, con énfasis principalmente en los fundamentos matemáticos y estadísticos de los principales algoritmos de aprendizaje automático y reconocimiento de patrones. El tema central del curso es el estudio de métodos para obtener información útil a partir de datos. Al final del curso, los estudiantes comprederán, tanto en la teoría como en la práctica, las etapas necesarias para producir un estudio o análisis de datos, desde la concepción de un problema, hasta la generación de un informe técnico de análisis. Para aprovechar de mejor manera el curso, es recomendable que los estudiantes estén familiarizados con temas de álgebra lineal, cálculo, estadística matemática, y tener conocimientos de al menos un lenguaje de programación (e.g. Python, R, Matlab, C++, u otros).
Programa del curso
Horario
- Martes y jueves, 16:00 a 17:20 horas.
Office Hours
- Viernes de 18:00 a 20:00 horas, por solicitud del estudiante. También pueden enviar sus dudas por correo electrónico.
Material del curso
No. | Fecha | Tópicos | Recursos |
---|---|---|---|
01 | 12.01.2023 | Introducción al curso. ML y Data Science. Aula 01 |
|
02 | 17.01.2023 | Repaso de estadística y probabilidad. Aula 02 |
|
03 | 19.01.2023 | Distribución teórica y distribución empírica. Aula 03 |
Ejercicios en grupos. |
04 | 24.01.2023 | Variables aleatorias. Densidad y Función de Distribución. Aula 04 |
Ver aula04.ipynb. |
05 | 26.01.2023 | Estadísticos. Media, mediana y moda. Aula 05 |
Ver aula05.ipynb. |
L1 | 26.01.2023 | Lista 01. | Lista 01 penguins.csv tips.csv Fecha de Entrega: jueves 2 de febrero. |
06 | 31.01.2023 | Covarianza y correlación. Distribución normal multivariada. Aula 05a Aula 05b Aula 05c |
Ver aula06.ipynb. |
07 | 02.02.2023 | Presentaciones y discusión de análisis de datos. Técnicas de visualización. | |
08 | 07.02.2023 | Análisis de Componentes Principales (PCA). Aula 06 |
Ver aula07.ipynb. |
09 | 09.02.2023 | PCA. Proyección de datos. Biplot e interpretación. Aula 07 |
Ver aula08.ipynb. |
10 | 14.02.2023 | Interpretación de componentes principales. Aula 08 |
|
L2 | 14.02.2023 | Lista 02. | Lista 02 weather.csv crimes.dat Fecha de Entrega: martes 28 de febrero. |
11 | 16.02.2023 | Escalamiento multidimensional. PCA en imágenes. Aula 09 |
Ver aula09a.ipynb, aula09b.ipynb y aula10.ipynb. |
12 | 21.02.2023 | Kernel PCA. Métodos locales de proyección. Aula 10 |
Ver aula11.ipynb (pendiente). Experimentar con Tensorflow Embedding Projector |
13 | 23.02.2023 | Manifold Learning: IsoMap, UMap, t-SNE. Aula 11 |
Ver aula12a.ipynb y aula12b.ipynb. |
14 | 28.02.2023 | Manifold Learning: SOM. |
democracy_index.ipynb democracy_index.csv |
L3 | 02.03.2023 | Lista 03. | Lista 03 wine.csv hpi-data-2016.xlsx Fecha de Entrega: martes 14 de marzo. |
15 | 07.03.2023 | Clustering. Agrupamiento jerárquico. Aula 12 |
|
16 | 09.03.2023 | Ejemplos de agrupamiento jerárquico. |
Ver aula13.ipynb. |
17 | 14.03.2023 | K-means, K-medians, y K-medoids. Aula 14 |
|
18 | 16.03.2023 | Ejemplos de K-means. |
Ver aula15.ipynb. |
19 | 21.03.2023 | Métodos basados en densidad. Aula 16 |
Ver density-based.ipynb, comparison.ipynb. |
20 | 23.03.2023 | Métricas para algoritmos de agrupamiento. Aula 17 |
Ver clustering-metrics.ipynb, silhouette.ipynb. |
21 | 28.03.2023 | Regresión Logística. Aula 18 |
Ver logistic.ipynb. |
22 | 11.04.2023 | Presentaciones primer proyecto. | |
23 | 13.04.2023 | Presentaciones primer proyecto. | |
24 | 18.04.2023 | K-vecinos más cercanos KNN. Aula 19 |
Ver knn.ipynb. |
25 | 20.04.2023 | Probabilidad condicional. Regla de Bayes. | |
26 | 25.04.2023 | Clasificador Naïve Bayes. Aula 20 |
Ver bayes.ipynb. |
27 | 27.04.2023 | Redes Neuronales: Historia. Redes multicapa. Aula 21 |
|
28 | 02.05.2023 | Implementación en Keras. Ejemplo de red multicapa. |
Day1.rar Tensorflow Playground |
29 | 04.05.2023 | Redes multicapa. Stochastic gradient descent vs. Batch gradient descent. Optimizadores. | Day2.rar https://www.ruder.io/optimizing-gradient-descent/ |
30 | 11.05.2023 | Redes neuronales para regresión. | Day3.rar California Housing Prices |
Material adicional (scripts)
No. | Fecha | Tópicos | Material |
---|---|---|---|
00 | 12.01.2023 | Instalación de librerías y ambiente de trabajo Python Anaconda, Jupyter-lab. | Anaconda+Tensorflow+Jupyter installation guide Archivos auxiliares: plotmatrix.py test.ipynb |
04 | 24.01.2023 | Generación de muestras aleatorias en Python. Histogramas, densidad y distribución. | aula04.ipynb |
05 | 26.01.2023 | Exploración de datos (EDA). Gráficos y otros plots. | aula05.ipynb |
06 | 31.01.2023 | Distribuciones multivariadas. Covarianza, correlación. Entropía. | aula06a.ipynb aula06b.ipynb |
07 | 07.02.2023 | Descomposición SVD de matrices. | aula07.ipynb |
08 | 09.02.2023 | Análisis de componentes. Ejemplo con datos de deportes. | aula08.ipynb deport.csv |
09 | 14.02.2023 | PCA en imágenes. Ejemplo de compresión de imágenes. | aula09a.ipynb aula09b.ipynb quetzal.png |
10 | 16.02.2023 | Escalamiento multidimensional. | aula10.ipynb |
11 | 21.02.2023 | Kernel PCA, y extensiones. | aula11.ipynb |
12 | 23.02.2023 | Manifold Learning: UMap, t-SNE, IsoMap. | aula12a.ipynb aula12b.ipynb |
13 | 28.02.2023 | Ejemplo de SOM con pingüinos. | aula13.ipynb |
14 | 09.03.2023 | Ejemplos de agrupamiento jerárquico. | aula14.ipynb horse.jpg tree.jpg |
15 | 16.03.2023 | Ejemplo de k-means. | aula15.ipynb horse.jpg tree.jpg |
16 | 21.03.2023 | Métodos basados en densidad: Mean-Shift, DBSCAN, OPTICS, BIRCH. | density-based.ipynb comparison.ipynb |
17 | 23.03.2023 | Métricas para algoritmos de agrupamiento. | clustering-metrics.ipynb silhouette.ipynb |
18 | 28.03.2023 | Ejemplo de regresión logística. | logistic.ipynb |
19 | 18.04.2023 | Ejemplo de clasificador KNN. | knn.ipynb |
Primer Proyecto
Análisis de datos de EcoBici / Análisis de datos SP500.
Recursos:
Sitio web oficial de EcoBici https://www.ecobici.cdmx.gob.mx/
Datos abiertos https://www.ecobici.cdmx.gob.mx/es/informacion-del-servicio/open-data
Sitio de Kaggle con los datos FAANG https://www.kaggle.com/datasets/suddharshan/historical-stock-price-of-10-popular-companies
Sitio de Kaggle con los datos SP500 https://www.kaggle.com/code/thomasrahman/s-p-500-5-stock-data-kmeans-clustering
No. | Fecha | Tópicos |
---|---|---|
P1 | 07.03.2023 | Proyecto 1 Coordenadas de estaciones stations.json stations.csv |
. | 11.04.2023 | Presentaciones |
. | 13.04.2023 | Presentaciones |
. | 14.04.2023 | Entrega del reporte, código y presentación |
Presentaciones del primer proyecto
No. | Fecha | Expositores | Tópicos |
---|---|---|---|
01 | 11.04.2021 | Pedro Pablo Beltranena, Andrés Martínez, Nickolas Nolte, Esteban Samayoa | S&P 500 Presentación |
02 | 11.04.2021 | Cruz Del Cid, Daniel Behar, Javier Mazariegos, Marcela Melgar | Ecobici Presentación |
03 | 13.04.2021 | Carlos Alvarado, Mario Pisquiy, Luz Arévalo, Lorena Pérez | FAANG+5 Companies Presentación |
Segundo Proyecto
Tema Libre.
Recursos: Buscar repositorios de Machine Learning, de Bases de datos o Competencias (e.g. Kaggle), para tomar ideas de proyectos.
No. | Fecha | Tópicos |
---|---|---|
P2 | 13.04.2023 | Proyecto 2 |
. | 28.04.2023 | Último día para tener elegido tema y datos |
. | 11.05.2023 | Entrega de borrador del proyecto |
. | 18.05.2023 | Presentaciones |
. | 19.05.2023 | Entrega del reporte, código y presentación |
Presentaciones del segundo proyecto
No. | Fecha | Expositores | Tópicos |
---|---|---|---|
01 | 18.05.2021 | Carlos Alvarado, Mario Pisquiy, Luz Arévalo, Lorena Pérez | |
02 | 18.05.2021 | Cruz Del Cid, Daniel Behar, Javier Mazariegos, Marcela Melgar | |
03 | 18.05.2021 | Pedro Pablo Beltranena, Andrés Martínez, Nickolas Nolte, Esteban Samayoa |
Referencias
Textos:
-
T. Hastie, R. Tibshirani, J. Friedman (2013). The Elements of Statistical Learning.
-
K. Murphy (2012). Machine Learning: a Probabilistic Perspective.
Referencias adicionales:
-
B. Everitt, T. Hothorn (2011). An Introduction to Applied Multivariate Analysis with R
-
K. Fukunaga (1990). Introduction to Statistical Pattern Recognition.
-
C. Giraud (2015). Introduction to High-Dimensional Statistics.
-
L. Devroye, L. Györfi, G. Lugosi (1996). A Probabilistic Theory of Pattern Recognition.