
Inteligencia Artificial Generativa y Multimodal
Resumen
Este curso ofrece una introducción práctica y conceptual a los fundamentos y aplicaciones de la inteligencia artificial generativa y multimodal. A través de una combinación equilibrada entre teoría y práctica, los estudiantes explorarán cómo los modelos generativos modernos —incluyendo modelos de visión (redes generativas adversarias (GANs) y modelos de difusión), modelos de audio, y modelos de lenguaje de gran escala (textuales y multimodales)— pueden crear, transformar y comprender distintos tipos de contenido como texto, imágenes, audio y datos multimodales.
El curso busca que los participantes adquieran una comprensión integral de las arquitecturas subyacentes, los principios de entrenamiento, la evaluación y las consideraciones éticas de estos sistemas. Asimismo, los laboratorios «hands-on» permitirán experimentar directamente con herramientas y bibliotecas actuales del ecosistema de IA (como HuggingFace’s transformers, diffusers, peft, …) para construir, adaptar y combinar modelos generativos en escenarios reales. Al finalizar, los estudiantes contarán con los conocimientos necesarios para diseñar e implementar soluciones creativas basadas en IA generativa en diversos dominios!
Todas las clases van a ser disponible online en un formato blog amigable similar a este: https://valbarriere.github.io/minerias/4_intro_sl/
Objetivos del curso
Al finalizar este curso, se espera que los y las estudiantes sean capaces de:
- Comprender y aplicar técnicas avanzadas de inteligencia artificial generativa para la creación y manipulación de diversos tipos de contenido, incluyendo texto, imágenes y audio.
- Entender los principios detrás de los modelos generativos más utilizados en la actualidad, como las redes generativas adversarias (GANs), los modelos de difusión y los modelos de lenguaje de gran escala (LLMs y LMMs).
- Utilizar bibliotecas y herramientas especializadas, como Transformers o PEFT, para implementar estas técnicas de manera eficiente en distintos contextos.
- Integrar modelos generativos en proyectos creativos o de innovación, demostrando la capacidad de combinar diferentes modalidades (texto, imagen, audio) en aplicaciones originales.
A nivel práctico:
- Entrenar, ajustar e implementar modelos generativos para tareas específicas en texto, visión, audio y modalidades combinadas.
- Aplicar técnicas de fine-tuning e instruction tuning para adaptar modelos preentrenados a nuevos dominios o lenguajes.
- Integrar modelos de recuperación aumentada (RAG) y agentes multimodales para el diseño de sistemas interactivos basados en IA generativa.
- Evaluar la calidad, sesgos y limitaciones de los modelos generativos en escenarios reales, promoviendo el uso ético y responsable de estas tecnologías.
Idioma: Español
Listado de temas
- Modelos de Visión:
- Cátedra: GANs, modelos autoregresivos, autoencoders variacionales y modelos de difusión.
- Laboratorio: Edición de caras con GANs.
- Modelos de Lenguaje (LLM):
- Cátedra: Modelización del lenguaje, entropía y temperatura, habilidades e In-Context Learning, tokenización, pérdidas de entrenamiento, instrucciones, alineamiento, razonamiento, entrenamiento en práctica, evaluación en práctica.
- Laboratorio: Instruction-tuning de un LLM.
- Modelos de Audio:
- Cátedra: Procesamiento del audio, tareas, modelos básicos (wav2vec, HuBERT, wavLM, AST), Speech-aware LLMs (Qwen2Audio, SALMONN, Audio-Flamingo), representaciones generales (AudioMAE, BYOL-A, BEATS), evaluación, tokenización y códecs, generación de música.
- Laboratorio: Music Genre Classification usando modelos de audio preentrenados.
- Modelos Multimodales:
- Cátedra: Multimodalidad: definición y desafíos, tipos de fusiones multimodales, primeros transformadores (LXMERT, ViLT, VL-BERT, …), coordinación en un espacio latente (CLIP), Stable Diffusion, modelos generativos (BLIP1–2), modelos basados en LLM (Flamingo, Frozen, LLaVA, BLIP3), datasets de entrenamiento, benchmarks de evaluación, tokenización y modelos de video.
- Laboratorio: Disaster Multimodal Tweets Classification usando modelos unimodales y multimodales generativos preentrenados.
- LLM y LMM avanzados:
- Cátedra: Eficiencia, RAG, herramientas y agentes.
- Laboratorio: RAG y RAG multimodal.
Programa
Cada tema será un día, por 1h30 de clase cátedra y 1h30 de laboratorio (hands-on session).
Bibliografía sugerida
Cursos
- CS224N: Natural Language Processing with Deep Learning: https://web.stanford.edu/class/archive/cs/cs224n/cs224n.1244/
- CMU-MMML: https://cmu-mmml.github.io/
Libros
- Tunstall, L., Von Werra, L., Wolf, T. (2022). Natural language processing with transformers. O’Reilly Media, Inc.
- Alammar, J., Grootendorst, M. (2024). Hands-on large language models: language understanding and generation. O’Reilly Media, Inc.
- David Foster, Generative Deep Learning, 2nd Edition. O’Reilly Media, Inc.
- Sanseviero, O., Cuenca, P., Passos, A., Whitaker, J. (2024). Hands-On Generative AI with Transformers and Diffusion Models. O’Reilly Media, Inc.
Artículos
- Liang, P. P., Zadeh, A., & Morency, L. P. (2024). Foundations & trends in multimodal machine learning: Principles, challenges, and open questions. ACM Computing Surveys, 56(10), 1-42.
Prerrequisitos
Este curso es basado en modelos de deep learning, así que se necesitan bases de: Machine Learning, y Deep Learning. Sería mejor de tener bases en NLP, y en procesamiento del señal (entender los conceptos de STFT, escala Mel, etc…) aunque no es necesario.

Seguinos en las redes