Visión por Computadora 2024
Este es un curso introductorio a la visión computacional (CV). Haremos un recorrido por las técnicas estándar para el procesamiento de imágenes digitales, el diseño de filtros básicos y aplicaciones de transformaciones, las cuales sirvan como base para el desarrollo de aplicaciones inteligentes asociadas a imágenes.
Aprenderemos y estudiaremos los algoritmos más comunes para la detección, extracción y comparación de características. Abordaremos también el estudio geométrico de imágenes de una vista (one-point-view) y de dos vistas (two-point-view), y sus transformaciones asociadas. Estos algoritmos se utilizan para alinear y unir imágenes para crear una única imagen de una escena más grande, y para recrear escenas 3D a partir de imágenes planas.
Abordaremos también grandes temas como la clasificación y segmentación de imágenes, y estudiaremos los métodos actuales de aprendizaje automático para este objetivo, principalmente redes neuronales convolucionales. Abordaremos también temas como la detección de objetos en una imagen, así como estimación de movimiento y seguimiento de objetos con aprendizaje automático. Al final del curso y si el tiempo lo permite haremos un breve recorrido por metodologías y herramientas actuales de IA generativa, para producir imágenes a partir de descripciones.
El curso requiere madurez por parte del estudiante, pues se integran contenidos de muchos cursos de computación, matemática y estadística. Entre los prerrequisitos se encuentra tener un buen dominio de las técnicas vistas en los cursos de matemática discreta, grafos, álgebra lineal, programación y algoritmos, cálculo diferencial e integral, y estadística.
Programa del curso
Horario
- Martes, de 18:10 a 19:45 horas. Jueves, de 17:20 a 18:55 horas.
Office Hours
- Miércoles y viernes, de 19:00 a 20:00 horas, por solicitud del estudiante. También pueden enviar sus dudas por correo electrónico.
Material del curso
No. | Fecha | Tópicos | Recursos |
---|---|---|---|
01 | 09.01.2024 | Introducción. Ejemplos de tareas en CV y aplicaciones. Aula 01 |
|
02 | 11.01.2024 | Tipos de imágenes: binarias, escala de grises, RGB. | |
03 | 16.01.2024 | Transformaciones básicas. Histogramas. Conversión RGB a gris. Corrección gamma. | |
04 | 18.01.2024 | Ecualización de histograma. Algoritmos de binarización: Otsu, Riddler-Calvard, local. | |
T1 | 18.01.2024 | Lista 01 Fecha de Entrega: jueves 1 de febrero. |
saigon.jpeg monkey.jpeg rice.jpg |
05 | 23.01.2024 | Otros algoritmos de binarización. Segmentación de imágenes usando $k$-means. | |
06 | 25.01.2024 | Comentarios sobre espacios de color, luminancia y cromaticidad. | |
07 | 30.01.2024 | Operadores Morfológicos. Aula 06 |
González y Woods, Cap. 9. |
08 | 01.02.2024 | Componentes Conexas. Operador Hit or Miss. |
González y Woods, Cap. 9. |
L1 | 01.02.2024 | Lab 01 Fecha de Entrega: jueves 15 de febrero. |
fingerprint.jpeg brain-scan.jpeg rice.jpg microscope.png butterfly.jpeg quetzalgris.png chestxray.jpeg |
09 | 06.02.2024 | Filtros lineales. Convolución. Filtro de medias. | |
10 | 08.02.2024 | Filtros de Prewitt, Sobel y Laplace. Filtros de orden. | |
11 | 13.02.2024 | Filtros binarios. Correlación y detección de formas. |
|
12 | 15.02.2024 | Transformada de Hough. |
|
13 | 20.02.2024 | Transformada de Fourier en imágenes. |
|
14 | 27.02.2024 | Filtros usando la transformada de Fourier. |
|
15 | 29.02.2024 | Filtros de Gabor. Bancos de Filtros. |
|
16a | 05.03.2024 | Filtros de Haar. Imagen integral. |
integral-image.ipynb bricks1.jpeg |
16b | 05.03.2024 | Detección de objetos con método cascada. Algoritmo de Viola-Jones. | Paper Viola-Jones (2001) |
17 | 07.03.2024 | Ejemplo de detección de caras y detección de personas con Haar. | cascade.ipynb cascade-fullbody.ipynb facial-expressions.jpeg volei.jpeg |
18 | 12.03.2024 | Histogram of Gradients (HOG). |
Paper Dalal-Triggs (2005) |
19 | 14.03.2024 | Ejemplo de detección de personas con HOG. |
|
L2 | 14.03.2024 | Lab 02 Fecha de Entrega: jueves 21 de marzo. |
person.png volei.jpeg |
20 | 21.03.2024 | Detector de esquinas de Harris. |
harris-detector.ipynb |
T2 | 21.03.2024 | Lista 02 Fecha de Entrega: viernes 22 de marzo. |
|
21 | 02.04.2024 | Detección de puntos característicos y Descriptores: SIFT, SURF, FAST, ORB. | Paper SIFT Lowe DoG.ipynb SIFT.ipynb chair.jpeg |
22 | 04.04.2024 | Presentaación del Proyecto 2. |
|
23 | 09.04.2024 | Transformaciones rígidas en 2D y 3D. Aula 23 Apuntes Geometría 2D y 3D |
Sección 2.1 Hartley-Zisserman. |
24 | 11.04.2024 | Fundamentos de geometría proyectiva. |
Sección 2.2 Hartley-Zisserman. |
25 | 16.04.2024 | Homografías. Solución de homografías entre 2 vistas. RANSAC. | Sección 2.3 Hartley-Zisserman. |
26 | 16.04.2024 | Panoramas: Image stitching, warping y blending. | Capítulo 8 Hartley-Zisserman. |
27 | 18.04.2024 | Redes convolucionales. Operaciones y parámetros básicos. | |
28 | 23.04.2024 | Arquitecturas de ConvNets: LeNet5, AlexNet, VGG11 a VGG19, Inception y GoogleNet. | |
29 | 25.04.2024 | Arquitecturas para segmentación: FCN Net, U-Net. | |
30 | 30.04.2024 | Lab 03 Fecha de Entrega: jueves 16 de mayo. |
Anisotropic.py Paper Perona-Malik |
31 | 07.05.2024 | Revisión y explicación de de warping. |
|
32 | 09.05.2024 | Presentación del Proyecto 3. |
|
33 | 21.05.2024 | Charla sobre el uso de visión para reconocer lenguaje de señas. | |
34 | 23.05.2024 | Charla sobre el uso de visión para eye-tracking. | |
35 | 27-31.05.2024 | Presentación de proyectos finales. |
Proyectos
Proyecto 1
No. | Fecha | Tópicos | Recursos |
---|---|---|---|
1 | 04.02.2024 | Proyecto 1 - Angiogramas coronarios. | Proyecto 1 database.zip |
2 | 29.02.2024 | Entrega del proyecto. |
Proyecto 2
No. | Fecha | Tópicos | Recursos |
---|---|---|---|
1 | 07.03.2024 | Proyecto 2 - Detección de objetos. | Proyecto 2 |
2 | 04.04.2024 | Entrega del proyecto. |
Proyecto 3
No. | Fecha | Tópicos | Recursos |
---|---|---|---|
1 | 16.04.2024 | Proyecto 3 - Imágenes Panorámicas. | Proyecto 3 |
2 | 09.05.2024 | Entrega del proyecto. |
Proyecto 4
No. | Fecha | Tópicos | Recursos |
---|---|---|---|
1 | 27-30.05.2024 | Proyecto 4 - Redes Neuronales. | |
2 | 31.05.2024 | Entrega del proyecto. |
Referencias
Textos:
Otras Referencias:
-
D. Forsyth y J. Ponce (2011). Computer Vision: A Modern Approach.
-
R. Hartley y A. Zisserman (2004). Multiple View Geometry in Computer Vsion.
-
R. Gonzalez y R. Woods (2007). Digital Image Processing. 3rd Edition
-
R. Gonzalez y R. Woods (2018). Digital Image Processing. 4th Edition