View on GitHub

cd2022

Curso de Ciencia de Datos 2022

Introducción a la Ciencia de Datos 2022

Este es un curso introductorio a la ciencia de datos, con énfasis principalmente en los fundamentos matemáticos y estadísticos de los principales algoritmos de aprendizaje automático y reconocimiento de patrones. El tema central del curso es el estudio de métodos para obtener información útil a partir de datos. Al final del curso, los estudiantes comprederán, tanto en la teoría como en la práctica, las etapas necesarias para producir un estudio o análisis de datos, desde la concepción de un problema, hasta la generación de un informe técnico de análisis. Para aprovechar de mejor manera el curso, es recomendable que los estudiantes estén familiarizados con temas de álgebra lineal, cálculo, estadística matemática, y tener conocimientos de al menos un lenguaje de programación (e.g. Python, R, Matlab, C++, u otros).

Programa del curso

Programa del curso

Horario

  • Lunes y miércoles, 17:20 a 18:55 horas. Laboratorio: a definir.

Office Hours

  • Viernes de 18:00 a 20:00 horas, o por solicitud del estudiante. También pueden enviar sus dudas por correo electrónico.

Material del curso

No. Fecha Tópicos Actividades
01 10.01.2022 Introducción
Aula 01
(I. Carmichael, J.S. Marron) Data Science vs. Statistics: Two Cultures?
02 12.01.2022 Repaso de probabilidad I: espacios de probabilidad.
Aula 02
Ver Chung, Capítulo 1.
03 17.01.2022 Probabilidad condicional
Aula 03
Ver Lefebvre, capítulo 2, pp. 27–5 44
04 19.01.2022 Ley de probabilidad total. Regla de Bayes.
Aula 04
Lefebvre, capítulo 2, pp. 27–54.
05 24.01.2022 Repaso de probabilidad II: variables aleatorias.
Aula 05
Lefebvre, sección 3.1, pp. 55–60.
06 26.01.2022 Independencia de v.a. Resúmenes de distribuciones.
Aula 06
Lefebvre, sección 3.2, pp. 61–69.
L1 29.01.2022   Lista de ejercicios 1
Fecha de entrega: Sábado 12 de febrero.
07 31.01.2022 Esperanza condicional. Covarianza y correlación. Entropía.
Aula 07
 
08 02.02.2022 Distribuciones Discretas. Resúmenes para distribuciones continuas.
Aula 08
Lefevbre, sección 3.3.
09 02.02.2022 Distribuciones Continuas. Distribuciones multivariadas.
Aula 09
Material sobre v.a. continuas y resúmenes de distribuciones.
Lefebvre, sección 3.3, pp. 70–80.
10 07.02.2022 Análisis de Componentes Principales (PCA).
Aula 10
Duda y Hart, sección 10.13.1, pp. 568-.
11 09.02.2022 PCA vs. Teorema Espectral y descomposición SVD.
Aula 11 Aula 11 notas
Hastie, Tibshirani, Friedman, sección 14.5.
12 14.02.2022 Proyección PCA. Ejemplos.
Aula 11 notas
 
13 16.02.2022 Interpretación PCA.
Aula 12
 
14 21.02.2022 Escalamiento multidimensional.
Aula 13
 
15 23.02.2022 PCA Robusto y extensiones PCA.
Aula 14
 
L2 27.02.2022   Lista de ejercicios 2
crimes.dat weather.csv
Fecha de entrega: Sábado 12 de marzo.
16 02.03.2022 Kernel PCA. Ejemplos de transformaciones no-lineales.
Aula 15
 
17 07.03.2022 ICA (Análisis de componentes independientes). NNMF.
Aula 16
 
18 09.03.2022 Métodos Locales I: Isomap, t-SNE, LLE, SOM.
Aula 17
Más ejemplos de visualizaciones con SOM Minisom
19 14.03.2022 Métodos Locales II: Spectral Embedding, Autoencoders, Prob. PCA, Projection-Pursuit.
Aula 18
Software para visualización de datos. Contiene una implementación de projection pursuit.
http://ggobi.org/
20 16.03.2022 Estimación empírica de distribuciones.
Aula 19
 
L3 19.03.2022   Lista de ejercicios 3
hpi-data-2016.xlsx
Fecha de entrega: Domingo 03 de abril.
21 21.03.2022 Técnicas de visualización.
visualisation.ipynb
22 23.03.2022 Imputación de datos.
Aula 21
imputation.ipynb hpi-data-2016.csv
23 28.03.2022 Agrupamiento jerárquico.
Aula 22
 
24 04.04.2022 Ejemplos de agrupamiento jerárquico.
hierarchical.ipynb
25 06.04.2022 K-medias. Diagrama de Voronoi. Variantes de K-medias.
Aula 23
 
26 18.04.2022 Presentación de proyectos.
 
27 20.04.2022 Presentación de proyectos.
 
28 25.04.2022 Función de verosimilitud. Modelos de mezclas gaussianas.
Aula 24
 
29 27.04.2022 Agrupamiento espectral.
Aula 25
 
30 02.05.2022 Otros métodos de agrupamiento: mean-shift, DBSCAN, OPTICS, BIRCH.
Aula 26
 
31 02.05.2022 Métricas para agrupamiento.
Aula 27
 
L4 03.05.2022   Lista de ejercicios 4
heptatlon.csv
Fecha de entrega: Viernes 13 de mayo.
32 04.05.2022 Modelación predictiva. KNN, K vecinos más cercanos.
Aula 28
 
33 09.05.2022 El clasificador bayesiano óptimo.
Aula 29
 
34 11.05.2022 El clasificador bayesiano óptimo II. Naive Bayes.
Aula 30 Aula 30 notas
 
35 15.05.2022 Análisis discriminante.
Aula 31
 
36 16.05.2022 Regresión logística.
Aula 32
 
37 18.05.2022 El perceptrón. Máquinas de vectores de soporte (SVM).
Aula 33
Perceptron Demo
Tensorflow Playground
38 25.05.2022 Árboles de decisión.
 
39 27.05.2022 Métodos ensemble: bagging, boosting, stacking. Random Forests.
 

Material adicional (scripts)

No. Fecha Tópicos Material
00 02.02.2022 Instalación de librerías y ambiente de trabajo Python Anaconda, Jupyter-lab. Anaconda+Tensorflow+Jupyter installation guide
Archivos auxiliares: plotmatrix.py test.ipynb
01 07.02.2022 Ejemplo de exploración de datos. iris.ipynb
02 14.02.2022 Lectura archivo csv. Exploración de datos. Estandarización. Descomposición SVD. Análisis de componentes principales. pca.ipynb
deport.csv
03   Ejemplo de escalamiento multidimensional.  
04 07.03.2022 Ejemplos de ICA. ica_examples.ipynb
horse.jpg morro.jpg plane.jpg race.jpg
05 07.03.2022 Ejemplo de NNMF. nnmf.ipynb
06 09.03.2022 Ejemplos de Manifold Learning. manifold.ipynb
07 14.03.2022 Ejemplo de SOM. democracy_index.csv democracy_index_som.ipynb
08 16.03.2022 Ejemplos de distribución empírica por kernel. 1D-kernel-density.ipynb
09 06.04.2022 Ejemplos de K-means. Clustering con imágenes. k-means.ipynb
horse.jpg tree.jpg
10 25.04.2022 Ejemplos mezclas gaussianas: Gaussian mixture models. gmm.ipynb
11 27.04.2022 Ejemplos de agrupamiento espectral. spectral1.ipynb spectral2.ipynb
12 03.05.2022 Ejemplos de mean-shift, DBSCAN, OPTICS y BIRCH. density-based.ipynb comparison.ipynb
13 03.05.2022 Método de las silhouettes. silhouette.ipynb
14 05.05.2022 Ejemplo de KNN. knn.ipynb

Primer Proyecto

Análisis de datos de EcoBici.
Recursos:
Sitio web oficial de EcoBici https://www.ecobici.cdmx.gob.mx/
Datos abiertos https://www.ecobici.cdmx.gob.mx/es/informacion-del-servicio/open-data

No. Fecha Tópicos Material
P1 16.03.2022 Primer proyecto
Proyecto 1
Coordenadas de estaciones
stations.json stations.csv
. 18.04.2022 Presentaciones  
. 20.04.2022 Presentaciones  
. 21.04.2022 Entrega del reporte, código y presentación.  

Presentaciones del primer seminario (Datos Ecobici)

No. Fecha Expositor Tópicos
01 18.04.2022 Elder
 
02 18.04.2022 Karina
 
03 18.04.2022 Lucha
 
04 20.04.2022 Carlos
 
05 20.04.2022 Leonel
 
06 20.04.2022 Rafael
 

Segundo Proyecto

Análisis de datos + Agrupamiento + Clasificación + Regresión. Tema libre, previo visto bueno.

No. Fecha Tópicos Material
. 13.05.2022 Última fecha para definir tema.  
. 30.05.2022 Presentaciones  
. 01.06.2022 Presentaciones  
. 03.06.2022 Entrega del reporte, código y presentación.  

Material sobre Python (textos, videos)