View on GitHub

cd2021

Curso de Introducción a la Ciencia de Datos 2021

Introducción a la Ciencia de Datos 2021

Este es un curso introductorio a la ciencia de datos, con énfasis principalmente en los fundamentos matemáticos y estadísticos de los principales algoritmos de aprendizaje automático y reconocimiento de patrones. El tema central del curso es el estudio de métodos para obtener información útil a partir de datos. Al final del curso, los estudiantes comprederán, tanto en la teoría como en la práctica, las etapas necesarias para producir un estudio o análisis de datos, desde la concepción de un problema, hasta la generación de un informe técnico de análisis. Para aprovechar de mejor manera el curso, es recomendable que los estudiantes estén familiarizados con temas de álgebra lineal, cálculo, estadística matemática, y tener conocimientos de al menos un lenguaje de programación (e.g. Python, R, Matlab, C++, u otros).

Programa del curso

Programa del curso

Horario

  • Lunes y jueves, 15:40 a 17:20 horas. Laboratorio: a definir.

Office Hours

  • Viernes de 16:00 a 17:00 horas, o por solicitud del estudiante. También pueden enviar sus dudas por correo electrónico.

Material del curso

No. Fecha Tópicos Actividades
01 11.01.2021 Introducción
Aula 01
(I. Carmichael, J.S. Marron) Data Science vs. Statistics: Two Cultures?
02 14.01.2021 Probabilidad
Aula 02
(K.-L. Chung) A Course in Probability Theory
03 18.01.2021 Proba. condicional
Variables aleatorias
Aula 03
Lefebvre, capítulo 2, pp. 27–54.
(M. Lefebvre) Basic Probability with Applications
L1a 21.01.2021   Lista de ejercicios 1, parte A
Entregar sólo ejercicios: 1, 7, 8, 11, 12. Se entregarán junto con la parte B.
04 21.01.2021 Variables aleatorias
Aula 04
Lefebvre, sección 3.1, pp. 55–60
05 25.01.2021 Variables aleatorias discretas. Resúmenes de distribuciones.
Aula 05
Lefebvre, sección 3.2, pp. 61–69
06 28.01.2021 Variables aleatorias continuas. Resúmenes de distribuciones.
Aula 06
Material sobre v.a. continuas y resúmenes de distribuciones.
Lefebvre, sección 3.3, pp. 70–80
07 30.01.2021 Ejemplos de distribuciones.
Aula 07
Material sobre distribuciones.
Lefebvre, capítulos 3 y 4 (el 4 es sobre multivariadas).
L1b 30.01.2021   Lista de ejercicios 1, parte B
Entregar sólo ejercicios: 1, 2, 4, 5.
Fecha de entrega: Lunes 8 de febrero.
08 01.02.2021 Técnicas de visualización. Análisis de componentes principales.
Aula 08
 
09 04.02.2021 Análisis de componentes principales
Aula 09
 
10 08.02.2021 Interpretación de PCA. Errores comunes. Ejemplos y aplicaciones.
Aula 10
Ver Libro de Duda y Hart.
11 11.02.2021 Escalamiento multidimensional
Aula 11
Material sobre el problema de transformar una distribución uniforme.
Distribución uniforme en la esfera
L2 13.02.2021   Lista de ejercicios 2
crimes.dat weather.csv
Fecha de entrega: Martes 23 de febrero.
12 15.02.2021 PCA Robusto. Kernel PCA.
Aula 12
 
13 18.02.2021 Variables latentes. ICA.
Aula 13
 
14 22.02.2021 Factoracion no-negativa de matrices
Aula 14
El archivo no está completo. Falta agregar el material sobre análisis semántico latente: LSA, LDA y FA y ejemplos.
15 25.02.2021 Métodos locales I
Aula 15
 
L3 28.02.2021   Lista de ejercicios 3
Fecha de entrega: Jueves 11 de marzo.
16 01.03.2021 Métodos locales II
Aula 16
Faltan ejemplos de SOM.
17 04.03.2021 Funciones kernel. Construcción de distribuciones empíricas. Pendiente de agregar los ejemplos en Python.
Estaré agregando las notas más adelante.
L4 07.03.2021   Lista de ejercicios 4
hpi-data-2016.xlsx
Fecha de entrega: Lunes 22 de marzo.
18 08.03.2021 Agrupamiento jerárquico
Aula 18
Ejemplos de visualización de dendrogramas:
Paper Covid19-1 Paper Covid19-2
19 11.03.2021 K-medias, K-medianas, K-medioides, Fuzzy K-medias.
Aula 19
Comentarios sobre la maldición de la dimensionalidad
Raúl Rojas dimensionality.pdf
Ver también Cap. 1 libro de Giraud.
20 18.03.2021 Mezclas gaussianas. Algoritmo EM.
Aula 20
 
21 22.03.2021 Agrupamiento espectral.
Aula 21
 
P1 22.03.2021   Proyecto 1
Fecha de entrega: Lunes 12 de abril.
Presentaciones: Lunes 12 y Jueves 15 de abril.
Coordenadas estaciones: stations.json stations.csv
22 25.03.2021 Métodos basados en densidades.
Aula 22
 
23 29.03.2021 Métricas para métodos de agrupamiento.
Aula 23
 
24 05.04.2021 Modelación predictiva. K vecinos más cercanos.
Aula 24
Algunos demos interactivos
Demo1 Demo2
L5 06.04.2021   Lista de ejercicios 5
heptatlon.csv
Fecha de entrega: Viernes 23 de abril.
25 08.04.2021 El clasificador bayesiano óptimo.
Aula 25
 
26 12.04.2021 Ejemplos de clasificador bayesiano. Clasificador Naive Bayes.
Aula 26
Algunos ejemplos
Ejemplo 1 (2 normales)
Ejemplo 2 (3 normales)
27 15.04.2021 Análisis discriminante (LDA y QDA).
Aula 27
 
S1 19.04.2021 Presentación de seminarios.  
S1 22.04.2021 Presentación de seminarios.  
S2 25.04.2021   Propuestas de proyectos finales
28 26.04.2021 Clasificadores lineales. Clasificador logístico.
Aula 28
Demo de clasificador lineal.
Demo
29 29.04.2021 Perceptrón. Máquinas de vectores de soporte.
Aula 29
Rosenblatt Perceptron
Tensorflow Playground
L6     Lista de ejercicios 6
Fecha de entrega: Domingo 16 de mayo.
30 03.05.2021 Árboles de decisión.
Aula 30
Para una breve historia y origen de árboles de decisión ver
Paper Wei-Yin Loh Slides
31 06.05.2021 Random forests. Bagging y Boosting.
Aula 31
 
32 13.05.2021 Modelo de regresión lineal. Mínimos cuadrados ordinarios. (OLS)
Aula 32
 
33 17.05.2021 Gráficos de diagnóstico
Aula 33
 
L7 17.05.2021   Lista de ejercicios 7
spambase.csv winequality-white.csv
Fecha de entrega: Jueves 10 de junio.
34 20.05.2021 Otros métodos de Regresión. Selección de variables y modelos.
Aula 34
 
35 24.05.2021 Métricas para clasificación. Validación cruzada.
Aula 35
 
36 24.05.2021 Redes neuronales multicapa.
Redes Neuron. 1 Redes Neuron. 2
Charla Delvas
Taller Keras 1
Material Taller Keras 1
37 27.05.2021 Redes neuronales convolucionales.
Detalles de implementación en Keras.
Taller Keras 2
Material Taller Keras 2

Material adicional (labs)

No. Fecha Tópicos Material
00 01.02.2021 Instalación de librerías y ambiente de trabajo Python Anaconda, Jupyter-lab. Anaconda+Tensorflow+Jupyter installation guide
Archivos auxiliares: plotmatrix.py test.ipynb
. 04.02.2021 Ejemplo de exploración de datos. iris.ipynb
01 06.02.2021 Lectura archivo csv. Exploración de datos. Estandarización. Descomposición SVD. Análisis de componentes principales. lab01.ipynb
lab01_R.ipynb
deport.csv
. 08.02.2021 Errores comunes en PCA. meteo-users.ipynb
meteo-users.csv
02 13.02.2021 Procesamiento de imágenes. RGB a escala de grises. Crop. Histogramas. Transformaciones básicas. lab02.ipynb
quetzal.png
. 18.02.2021 Ejemplo de ICA. ICA_examples.ipynb
horse.jpg morro.jpg plane.jpg race.jpg
. 22.02.2021 Ejemplo de NNMF. Sistemas de recomendación. nnmf-recommender-system.ipynb
. 01.03.2021 Ejemplo de KernelPCA. Ejemplos de manifold learning. manifold.ipynb
. 01.03.2021 Ejemplo de SOM. DemocracyIndex.ipynb
democracy_index.csv
. 04.03.2021 Funciones de base (kernel) radial.  
03 13.03.2021 Agrupamiento jerárquico. K-medias. hierarchical.ipynb
k-means.ipynb
horse.jpg
. 18.03.2021 Gaussian misture models. Algoritmo EM. gmm.ipynb
. 22.03.2021 Agrupamiento espectral. spectral1.ipynb
spectral2.ipynb
. 25.03.2021 Métodos basados en densidad. Comparación. density-based.ipynb
comparison.ipynb
. 25.03.2021 Métricas de evaluación para agrupamiento. silhouette.ipynb
04 17.04.2021 Clasificador y regresor Knn. Clasificador Naive Bayes. knn.ipynb
bayes.ipynb
. 26.04.2021 Clasificador logístico. logistic.ipynb
. 01.05.2021 Clasificador SVM.  
. 03.05.2021 Árboles de decisión. tree.ipynb
. 06.05.2021 Random forests. random-forest.ipynb
05 15.05.2021 Regresion líneal ordinaria. ols.ipynb
plot_diagnostic.py

Presentaciones del primer seminario (Datos Ecobici)

No. Fecha Expositor Tópicos
01 19.04.2021 Juan Lorthiois
Presentación
Comparación de la demanda anterior/posterior de pandemia Covid 19. Perfilado o caracterización de un usuario típico. Determinación geográfica de estaciones con mayor demanda. Clusterización y diferenciación t-SNE por variable.
02 19.04.2021 José Ramos
Presentación
Modelo de decisión de velocidad media de los usuarios. Determinación de variables de mayor impacto en la predicción de la velocidad media de recorrido. Clasificación Naive Bayes de velocidad del usuario: lento/rápido.
03 19.04.2021 Rodrigo Morales
Presentación
Modelos para localización óptima de nuevas estaciones. Uso de fuentes diversas para predicción: INEGI, población flotante, geolocalización, nivel socioeconómico. Comparación de criterios de localización óptima.
04 19.04.2021 Pablo Noack
Presentación
Distribuciones de tiempos de recorrido y desplazamientos. Relación geoespacial contra distribuciones de frecuencia de demanda. Análisis de la matriz de frecuencias. Clusterización t-SNE por frecuencia.
05 22.04.2021 José López
Presentación
Estadísticas comparativas antes y después de Covid-19. Segmentación de uso por edad y género. Pronósticos de demanda máxima y mínima de bicicletas. Forecasting de demanda con series de tiempo.
06 22.04.2021 Javier Mejía
Presentación
Análisis de la encuesta sobre uso Ecobici. Diseño de visualizaciones intuitivas. Comparación de rutas y tiempos promedio por weekday/weekend. Mapas de calor zonas de mayor demanda. Matriz de frecuencias.
07 24.04.2021 José Menéndez
Presentación
Comparativa de distribuciones de edad, por género y fecha. Análisis de demanda en función de la época del año, y en función de la localización. Proyecciones y agrupamiento por zona geográfica.
08 24.04.2021 Lorena Beltrán
Presentación
Estadísticas descriptivas de base de datos Ecobici. Distribuciones por cada variable. Análisis de componentes principalesy análisis de correlación. Detección de zonas de mayor actividad. Agrupamiento t-SNE.

Presentaciones del segundo seminario (Proyectos)

No. Fecha Expositor Título
01 03.06.2021 José Menéndez
Presentación
Clasificador de gestos de manos
02 03.06.2021 José López
Presentación
Clasificador para detección de cáncer de piel
03 03.06.2021 Rodrigo Morales
Presentación
Alternativas a la data de movilidad para la caracterización de sectores comerciales
04 03.06.2021 José Ramos
Presentación
Prediciendo hits y clustering de canciones
05 03.06.2021 Lorena Beltrán
Presentación
Equidad de género, un problema del siglo XXI
06 03.06.2021 Juan Lorthiois
Presentación
Identificación de patrones en las fatalidades ocurridas durante enfrentamientos con la policía norteamericana
07 03.06.2021 Javier Mejía
Presentación
Clasificando géneros musicales a partir de la letra
08 03.06.2021 Pablo Noack
Presentación
Análisis de textos y contenidos en el dataset Old Newspapers

Material sobre Python (textos, videos)