View on GitHub

ml2023

Elements of Machine Learning 2023

Elements of Machine Learning 2023

Este es un curso introductorio a la ciencia de datos, con énfasis principalmente en los fundamentos matemáticos y estadísticos de los principales algoritmos de aprendizaje automático y reconocimiento de patrones. El tema central del curso es el estudio de métodos para obtener información útil a partir de datos. Al final del curso, los estudiantes comprederán, tanto en la teoría como en la práctica, las etapas necesarias para producir un estudio o análisis de datos, desde la concepción de un problema, hasta la generación de un informe técnico de análisis. Para aprovechar de mejor manera el curso, es recomendable que los estudiantes estén familiarizados con temas de álgebra lineal, cálculo, estadística matemática, y tener conocimientos de al menos un lenguaje de programación (e.g. Python, R, Matlab, C++, u otros).

Programa del curso

Programa del curso

Horario

  • Martes y jueves, 16:00 a 17:20 horas.

Office Hours

  • Viernes de 18:00 a 20:00 horas, por solicitud del estudiante. También pueden enviar sus dudas por correo electrónico.

Material del curso

No. Fecha Tópicos Recursos
01 12.01.2023 Introducción al curso. ML y Data Science.
Aula 01
 
02 17.01.2023 Repaso de estadística y probabilidad.
Aula 02
 
03 19.01.2023 Distribución teórica y distribución empírica.
Aula 03
Ejercicios en grupos.
04 24.01.2023 Variables aleatorias. Densidad y Función de Distribución.
Aula 04
Ver aula04.ipynb.
05 26.01.2023 Estadísticos. Media, mediana y moda.
Aula 05
Ver aula05.ipynb.
L1 26.01.2023 Lista 01. Lista 01 penguins.csv tips.csv
Fecha de Entrega: jueves 2 de febrero.
06 31.01.2023 Covarianza y correlación. Distribución normal multivariada.
Aula 05a Aula 05b Aula 05c
Ver aula06.ipynb.
07 02.02.2023 Presentaciones y discusión de análisis de datos. Técnicas de visualización.  
08 07.02.2023 Análisis de Componentes Principales (PCA).
Aula 06
Ver aula07.ipynb.
09 09.02.2023 PCA. Proyección de datos. Biplot e interpretación.
Aula 07
Ver aula08.ipynb.
10 14.02.2023 Interpretación de componentes principales.
Aula 08
 
L2 14.02.2023 Lista 02. Lista 02 weather.csv crimes.dat
Fecha de Entrega: martes 28 de febrero.
11 16.02.2023 Escalamiento multidimensional. PCA en imágenes.
Aula 09
Ver aula09a.ipynb, aula09b.ipynb y aula10.ipynb.
12 21.02.2023 Kernel PCA. Métodos locales de proyección.
Aula 10
Ver aula11.ipynb (pendiente).
Experimentar con Tensorflow Embedding Projector
13 23.02.2023 Manifold Learning: IsoMap, UMap, t-SNE.
Aula 11
Ver aula12a.ipynb y aula12b.ipynb.
14 28.02.2023 Manifold Learning: SOM.
democracy_index.ipynb democracy_index.csv
L3 02.03.2023 Lista 03. Lista 03 wine.csv hpi-data-2016.xlsx
Fecha de Entrega: martes 14 de marzo.
15 07.03.2023 Clustering. Agrupamiento jerárquico.
Aula 12
 
16 09.03.2023 Ejemplos de agrupamiento jerárquico.
Ver aula13.ipynb.
17 14.03.2023 K-means, K-medians, y K-medoids.
Aula 14
 
18 16.03.2023 Ejemplos de K-means.
Ver aula15.ipynb.
19 21.03.2023 Métodos basados en densidad.
Aula 16
Ver density-based.ipynb, comparison.ipynb.
20 23.03.2023 Métricas para algoritmos de agrupamiento.
Aula 17
Ver clustering-metrics.ipynb, silhouette.ipynb.
21 28.03.2023 Regresión Logística.
Aula 18
Ver logistic.ipynb.
22 11.04.2023 Presentaciones primer proyecto.  
23 13.04.2023 Presentaciones primer proyecto.  
24 18.04.2023 K-vecinos más cercanos KNN.
Aula 19
Ver knn.ipynb.
25 20.04.2023 Probabilidad condicional. Regla de Bayes.  
26 25.04.2023 Clasificador Naïve Bayes.
Aula 20
Ver bayes.ipynb.
27 27.04.2023 Redes Neuronales: Historia. Redes multicapa.
Aula 21
 
28 02.05.2023 Implementación en Keras. Ejemplo de red multicapa.
Day1.rar
Tensorflow Playground
29 04.05.2023 Redes multicapa. Stochastic gradient descent vs. Batch gradient descent. Optimizadores. Day2.rar
https://www.ruder.io/optimizing-gradient-descent/
30 11.05.2023 Redes neuronales para regresión. Day3.rar
California Housing Prices

Material adicional (scripts)

No. Fecha Tópicos Material
00 12.01.2023 Instalación de librerías y ambiente de trabajo Python Anaconda, Jupyter-lab. Anaconda+Tensorflow+Jupyter installation guide
Archivos auxiliares: plotmatrix.py test.ipynb
04 24.01.2023 Generación de muestras aleatorias en Python. Histogramas, densidad y distribución. aula04.ipynb
05 26.01.2023 Exploración de datos (EDA). Gráficos y otros plots. aula05.ipynb
06 31.01.2023 Distribuciones multivariadas. Covarianza, correlación. Entropía. aula06a.ipynb aula06b.ipynb
07 07.02.2023 Descomposición SVD de matrices. aula07.ipynb
08 09.02.2023 Análisis de componentes. Ejemplo con datos de deportes. aula08.ipynb deport.csv
09 14.02.2023 PCA en imágenes. Ejemplo de compresión de imágenes. aula09a.ipynb aula09b.ipynb quetzal.png
10 16.02.2023 Escalamiento multidimensional. aula10.ipynb
11 21.02.2023 Kernel PCA, y extensiones. aula11.ipynb
12 23.02.2023 Manifold Learning: UMap, t-SNE, IsoMap. aula12a.ipynb aula12b.ipynb
13 28.02.2023 Ejemplo de SOM con pingüinos. aula13.ipynb
14 09.03.2023 Ejemplos de agrupamiento jerárquico. aula14.ipynb horse.jpg tree.jpg
15 16.03.2023 Ejemplo de k-means. aula15.ipynb horse.jpg tree.jpg
16 21.03.2023 Métodos basados en densidad: Mean-Shift, DBSCAN, OPTICS, BIRCH. density-based.ipynb comparison.ipynb
17 23.03.2023 Métricas para algoritmos de agrupamiento. clustering-metrics.ipynb silhouette.ipynb
18 28.03.2023 Ejemplo de regresión logística. logistic.ipynb
19 18.04.2023 Ejemplo de clasificador KNN. knn.ipynb

Primer Proyecto

Análisis de datos de EcoBici / Análisis de datos SP500.
Recursos:
Sitio web oficial de EcoBici https://www.ecobici.cdmx.gob.mx/
Datos abiertos https://www.ecobici.cdmx.gob.mx/es/informacion-del-servicio/open-data

Sitio de Kaggle con los datos FAANG https://www.kaggle.com/datasets/suddharshan/historical-stock-price-of-10-popular-companies
Sitio de Kaggle con los datos SP500 https://www.kaggle.com/code/thomasrahman/s-p-500-5-stock-data-kmeans-clustering

No. Fecha Tópicos
P1 07.03.2023 Proyecto 1
Coordenadas de estaciones stations.json stations.csv
. 11.04.2023 Presentaciones
. 13.04.2023 Presentaciones
. 14.04.2023 Entrega del reporte, código y presentación

Presentaciones del primer proyecto

No. Fecha Expositores Tópicos
01 11.04.2021 Pedro Pablo Beltranena, Andrés Martínez, Nickolas Nolte, Esteban Samayoa S&P 500
Presentación
02 11.04.2021 Cruz Del Cid, Daniel Behar, Javier Mazariegos, Marcela Melgar Ecobici
Presentación
03 13.04.2021 Carlos Alvarado, Mario Pisquiy, Luz Arévalo, Lorena Pérez FAANG+5 Companies
Presentación

Segundo Proyecto

Tema Libre.
Recursos: Buscar repositorios de Machine Learning, de Bases de datos o Competencias (e.g. Kaggle), para tomar ideas de proyectos.

No. Fecha Tópicos
P2 13.04.2023 Proyecto 2
. 28.04.2023 Último día para tener elegido tema y datos
. 11.05.2023 Entrega de borrador del proyecto
. 18.05.2023 Presentaciones
. 19.05.2023 Entrega del reporte, código y presentación

Presentaciones del segundo proyecto