Aprendizaje Estadístico 2024
Este es un curso introductorio al aprendizaje estadístico, con énfasis principalmente en los fundamentos matemáticos y estadísticos de los principales algoritmos de aprendizaje automático y reconocimiento de patrones. El tema central del curso es el estudio de métodos para obtener información útil a partir de datos. Abordamos temas principales como el aprendizaje supervisado y no supervisado, los modelos de regresión, y algunos tópicos recientes como el aprendizaje profundo. Al final del curso, los estudiantes comprederán los fundamentos de los algoritmos más populares del aprendizaje estadístico. Para aprovechar de mejor manera el curso, es recomendable que los estudiantes estén familiarizados con temas de álgebra lineal, cálculo, estadística matemática, y tener conocimientos de al menos un lenguaje de programación (e.g. Python, R, Matlab, C++, u otros).
Programa del curso
Horario
- Lunes y miércoles, de 19:50 a 21:25 horas.
Office Hours
- Miércoles y viernes de 19:00 a 20:00 horas, por solicitud del estudiante. También pueden enviar sus dudas por correo electrónico.
Material del curso
No. | Fecha | Tópicos | Recursos |
---|---|---|---|
01 | 08.01.2024 | Introducción. Repaso de Probabilidad. Aula 01 |
|
02 | 10.01.2024 | Variables Aleatorias. Comparación de Distribuciones. Aula 02 | |
03 | 15.01.2024 | Estadísticos: localización, varianza, covarianza y correlación. Entropía Aula 03 | |
04 | 17.01.2024 | Distribuciones Multivariadas. Aula 04 |
|
L1 | 17.01.2024 | Lista 1 areas.csv Entrega: Miércoles 31 de enero. |
|
05 | 22.01.2024 | Análisis de Componentes Principales (PCA). Aula 05 | |
06 | 24.01.2024 | Interpretación del PCA. Aula 06 |
pca.ipynb deport.csv |
07 | 29.01.2024 | Escalamiento Multidimensional. Aula 07 |
|
08 | 31.01.2024 | Extensiones de PCA: PCA Robusto, Minimum Ellipsoid, Kernel PCA. Aula 08 | |
L2 | 31.01.2024 | Lista 2 crimes.dat weather.csv Entrega: Miércoles 14 de febrero. |
|
09 | 05.02.2024 | Variables Latentes: Análisis de Componentes Independientes (ICA). Aula 09 | |
10 | 07.02.2024 | Variables Latentes: Factoración NNMF. Sistemas de recomendación. Aula 10 | recommender.ipynb movies.csv ratings.csv |
11 | 12.02.2024 | Métodos Locales I: IsoMap, SNE y t-SNE, UMAP. Aula 11 | manifold.ipynb |
12 | 19.02.2024 | Métodos Locales II: LLE y variantes, Autoencoders, SOM. Aula 12 | som_example.ipynb democracy_index.csv |
L3 | 19.02.2024 | Lista 3 wines.csv hpi-data-2016.xlsx Entrega: Lunes 04 de marzo. |
|
13 | 21.02.2024 | Densidades basadas en Kernels (KDE). Histogramas. Selección de bines y bandwidth. | 1D-kernel-density.ipynb 2D-kernel-density.ipynb Métodos para definir bandwidth |
14 | 26.02.2024 | Agrupamiento Jerárquico. Aula 14 |
hierarchical.ipynb |
15 | 29.02.2024 | Ejemplos de agrupamiento Jerárquico. |
countries_binary.xlsx |
16 | 04.03.2024 | K-medias, K-medianas, K-mediodes. Aula 15 |
k-means.ipynb k-means-other-distances.ipynb playa.jpeg tree.jpg |
15 | 06.03.2024 | Fuzzy K-medias. Ejemplos de agrupamiento con K-medias. |
Comentarios sobre la maldición de la dimensionalidad. Raúl Rojas dimensionality.pdf Ver también Cap. 1 libro de Giraud. |
L4 | 06.03.2024 | Lista 4 Entrega: Viernes 22 de marzo. |
|
16 | 13.03.2024 | Mezclas Gaussianas. Aula 16 |
gmm.ipynb |
17 | 18.03.2024 | Algoritmos basados en densidad: Mean-shift, DBSCAN, OPTICS, BIRCH. Aula 17 | density-based.ipynb comparison.ipynb |
18 | 01.04.2024 | Métricas para agrupamiento. Aula 18 |
clust-metrics.ipynb silhouette.ipynb |
19 | 03.04.2024 | Modelación predictiva. Motivación teórica. |
|
20 | 08.04.2024 | Presentaciones del primer proyecto. |
|
21 | 15.04.2024 | Clasificador K-nearest neighbours (KNN). Regresor KNN. Aula 19 |
knn.ipynb |
22 | 22.04.2024 | El clasificador bayesiano óptimo. Aula 20 |
|
23 | 24.04.2024 | Ejemplos de clasificador bayesiano. Naïve Bayes. Aula 21 |
bayes_car_exercise.ipynb bayes_text_class.ipynb car_data.csv |
24 | 29.04.2024 | Análisis discriminante. Aula 22 |
|
25 | 06.05.2024 | Deducción del discriminante cuadrático (QDA) y discriminante lineal (LDA). | bayes.ipynb |
26 | 08.05.2024 | Clasificadores lineales: Regresión logística. Aula 23 | |
27 | 08.05.2024 | Clasificadores lineales: Perceptrón y SVMs. Aula 24 | |
28 | 13.05.2024 | Árboles de decisión. Impureza. Aula 25 |
trees.ipynb |
29 | 13.05.2024 | Random forests. Bagging, Boosting, Stacking. Aula 26 | random-forest.ipynb |
30 | 14.05.2024 | Métricas para clasificación supervisada. Aula 27 | |
31 | 15.05.2024 | Regresión Lineal Ordinaria (OLS). Aula 28 |
|
32 | 20.05.2024 | Gráficos de diagnóstico. Aula 29 |
|
33 | 22.05.2024 | Métodos no paramétricas de regresión. Criterios de información. Aula 30 | |
34 | 27-31.05.2024 | Presentación de seminarios finales. |
Proyectos
En el curso se elaborarán dos proyectos.
Primer Proyecto (Ecobici)
No. | Fecha | Tópicos |
---|---|---|
P1 | 13.03.2024 | Proyecto 1 Coordenadas de estaciones stations.json stations.csv |
. | 08-10.04.2024 | Presentaciones |
. | 14.04.2024 | Entrega del reporte, código y presentación |
Presentaciones del Primer Proyecto
No. | Fecha | Expositores | Tópicos |
---|---|---|---|
01 | 08.04.2024 | Javier Aguilar, Wilfredo Gallegos Presentación |
|
02 | 08.04.2024 | Juan Fernando Ramírez, Oscar Méndez Presentación |
|
03 | 08.04.2024 | Julio Ávila, Guillermo Furlán Presentación |
|
04 | 08.04.2024 | Jeyner Arango, Jonathan Espinoza Presentación |
|
05 | 10.04.2024 | Juan Andrés Galicia, Stefan Quintana Presentación |
|
06 | 10.04.2024 | Joshua Chicoj, María José Gil Presentación |
|
07 | 10.04.2024 | Elisa Samayoa, Sofía Escobar Presentación |
|
08 | 10.04.2024 | Rudik Rompich, Alejandro Pallais Presentación |
Segundo Proyecto (Tema Libre)
No. | Fecha | Tópicos |
---|---|---|
P2 | 03.05.2024 | Tema Definido. Enviar correo antes para validar datos y tema. |
. | 27-29.05.2024 | Presentaciones |
. | 31.05.2024 | Entrega del reporte, código y presentación |
Horarios presentación Proyecto Final
Fecha | Expositores | Tema |
---|---|---|
27.05.2024 | Rudik Rompich Alejandro Pallais |
Census Income Presentación |
27.05.2024 | Jeyner Arango Jonathan Espinoza |
Popularidad Musical Presentación |
27.05.2024 | Javier Aguilar Wilfredo Gallegos |
Clasificadores de Spam / Ham Presentación |
27.05.2024 | Julio Ávila Guillermo Furlán |
Predicción mercado laboral en Data Science Presentación |
29.05.2024 | Elisa Samayoa Sofía Escobar |
Recomendación de modas personalizadas Presentación |
29.05.2024 | Joshua Chicoj María José Gil |
¿A quiénes les podemos prestar dinero? Presentación |
29.05.2024 | Juan Fernando Ramírez Oscar Méndez |
Clusterización de Playlist Presentación |
29.05.2024 | Juan Andrés Galicia Stefan Quintana |
Magnus Vision Presentación |
Referencias
Textos:
Referencias adicionales:
-
T. Hastie, R. Tibshirani, J. Friedman (2013). The Elements of Statistical Learning.
-
K. Murphy (2012). Machine Learning: a Probabilistic Perspective.
-
B. Everitt, T. Hothorn (2011). An Introduction to Applied Multivariate Analysis with R
-
K. Fukunaga (1990). Introduction to Statistical Pattern Recognition.
-
C. Giraud (2015). Introduction to High-Dimensional Statistics.
Referencias avanzadas:
-
L. Devroye, L. Györfi, G. Lugosi (1996). A Probabilistic Theory of Pattern Recognition.
-
S. Shalev-Shwartz, S. Ben-David (2014). Understanding Machine Learning: From Theory to Algorithms.