LLMs: Zero to (almost) Hero!

  • Giovanni Trappolini – Universidad de Roma La Sapienza. Italia.

Grandes modelos de lenguaje: fundamentos y aplicaciones

Breve resumen de la materia

El curso dará una introducción a las técnicas de aprendizaje profundo, dando fundamentos sólidos. Se describirá la evolución histórica que ha llevado al desarrollo de los modelos más avanzados de hoy en día, incluidas las arquitecturas basadas en Transformers. Junto con los conocimientos técnicos y teóricos, el curso abordará aplicaciones del mundo real y mantendrá un enfoque práctico. Al final de este curso, los participantes tendrán una comprensión clara y completa de los grandes modelos de lenguaje (LLMs), su evolución, capacidades y su papel e influencia en el panorama general de la inteligencia artificial.

Objetivos del curso
Este curso sobre grandes modelos de lenguaje (LLMs) tiene como objetivo dar a los estudiantes de una comprensión integral de estos modelos, equilibrando visión teórica y
aplicaciones prácticas. El objetivo principal es desarrollar el dominio de los conceptos fundamentales que rodean a los LLMs, permitiendo a los estudiantes reconocer los
mecanismos y principios subyacentes que hacen que estos modelos sean simultáneamente poderosos y sutiles. Desde un punto de vista teórico, los estudiantes se sumergirán en la arquitectura de los LLMs, las metodologías de entrenamiento y los fundamentos matemáticos. Desde el punto de vista práctico, los estudiantes aprenderán a implementar
arquitecturas básicas de LLM desde cero, proporcionándoles una experiencia directa de los desafíos y sutilezas involucrados. Aprovechando bibliotecas de última generación, los estudiantes practicarán con LLMs de vanguardia, entendiendo cómo utilizarlos de manera efectiva para tareas diversas. Al completar este curso, los estudiantes estarán equipados para utilizar estos modelos de manera independiente en sus actividades.

Programa
– Fundamentos del aprendizaje profundo.
– Mecanismos de atención.
– Arquitecturas basadas en Transformers (BERT, GPT).
– Transfer Learning, Fine-tuning, «Prompting».
– Generación con Recuperación Aumentada.
– Herramientas: Pytorch y el lenguaje de programación Python (+Huggingface).

Prerrequisitos
Nociones básicas de álgebra lineal y análisis (nivel CBC).
Nociones básicas de programación (preferiblemente en Python).

Bibliografía
– Jacob Devlin, Ming-Wei Chang, Kenton Lee, and Kristina Toutanova. Bert: Pre-training of deep bidirectional transformers for language understanding. arXiv preprint arXiv:1810.04805, 2018.
– Ian Goodfellow, Yoshua Bengio, and Aaron Courville. Deep learning. MIT press, 2016.
– Trevor Hastie, Robert Tibshirani, Jerome H Friedman, and Jerome H Friedman. The elements of statistical learning: data mining, inference, and prediction, volume 2. Springer,
2009.
– Patrick Lewis, Ethan Perez, Aleksandra Piktus, Fabio Petroni, Vladimir Karpukhin, Naman Goyal, Heinrich Küttler, Mike Lewis, Wen-tau Yih, Tim Rocktäschel, et al. Retrieval-augmented generation for knowledge-intensive nlp tasks. Advances in Neural Information Processing Systems, 33:9459–9474, 2020.
– Alec Radford, Karthik Narasimhan, Tim Salimans, Ilya Sutskever, et al. Improving language understanding by generative pre-training. 2018.
– Ashish Vaswani, Noam Shazeer, Niki Parmar, Jakob Uszkoreit, Llion Jones, Aidan N Gomez, Lukasz Kaiser, and Illia Polosukhin. Attention is all you need. Advances in neural
information processing systems, 30, 2017.
– Jason Wei, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Fei Xia, Ed Chi, Quoc V Le, Denny Zhou, et al. Chain-of-thought prompting elicits reasoning in large language models. Advances in Neural Information Processing Systems, 35:24824–24837, 2022.