IA368 - Tópicos em Engenharia de Computação V
Turma: FF -
Período: 1/2026 -
Tipo Período: 1o. período letivo -
Disciplina: 4 créditos.
Tema: Aprendizado por Reforço
Ementa: Resolução de Problemas Usando Técnicas de Busca. Introdução ao Aprendizado por Reforço. Processos de decisão de Markov. Programação Dinâmica. Métodos de Monte Carlo. Aprendizado por Diferença Temporal. Métodos tabulares de planejamento e aprendizagem. Controle com política própria e aproximação. Traços de elegibilidade. Métodos do gradiente de política. Deep Reinforcement Learning: Deep Q-Learning e Gradiente de Política Avançado. Heurísticas e Metaheurísticas. Neuroevolução.
Bibliografia: 1. SUTTON, R. S.; BARTO, A. G. Reinforcement learning: an introduction. 2ª edição. Cambridge, USA: MIT Press, 2020.
2. RUSSELL, S.; NORVIG, P. Artificial intelligence: a modern approach. 3ª edição. New Jersey, USA: Prentice Hall : Pearson Education, 2010.
3. GOODFELLOW, I.; BENGIO, Y.; COURVILLE, A.; Deep Learning. MIT Press, 2016.
4. BISHOP, C. M. Pattern Recognition and Machine Learning. Springer, 2006.
Conteudo Programático: Parte 1) Introdução à disciplina. Resolução de Problemas Usando Técnicas de Busca: i) Busca informada, ii)Busca com incertezas.
Parte 2) i) Introdução ao Aprendizado por Reforço, ii) O problema do bandido de vários braços, iii) Processos de decisão de Markov, iv) Programação Dinâmica, v) Métodos de Monte Carlo, vi) Aprendizado por Diferença Temporal, vii) Atualização em n passos (bootstrapping), viii) Métodos tabulares de planejamento e aprendizagem, ix) Predição com aproximação sob a política própria (on-policy), x) Controle com política própria e aproximação, xi) Traços de elegibilidade e xii) Métodos do gradiente de política.
Parte 3) Revisão de Redes Neurais Artificiais: i) Redes totalmente conectadas, ii) Redes convolucionais; Deep Reinforcement Learning: iii) Deep Q-Learning, iv) Gradiente de Política Avançado; v) Heurísticas e Metaheurísticas, vi) Neuroevolução.
Syllabus:
Part 1) Introduction to the discipline. Problem Solving Using Search Techniques: i) Informed Search, ii) Search with Uncertainty.
Part 2) i) Introduction to Reinforcement Learning, ii) The Multi-Armed Bandit Problem, iii) Markov Decision Processes, iv) Dynamic Programming, v) Monte Carlo Methods, vi) Temporal Difference Learning, vii) Bootstrapping, viii) Tabular Planning and Learning Methods, ix) Prediction with On-Policy Approximation, x) Control with On-Policy and Approximation, xi) Eligibility Traces, and xii) Policy Gradient Methods.
Part 3) Review of Artificial Neural Networks: i) Fully Connected Networks, ii) Convolutional Networks; Deep Reinforcement Learning; iii) Deep Q-Learning; iv) Advanced Policy Gradient; v) Heuristics and Metaheuristics, vi) Neuroevolution.
Descripción de la asignatura:
Parte 1) Introducción a la disciplina. Resolución de problemas mediante técnicas de búsqueda: i) Búsqueda informada, ii) Búsqueda con incertidumbre.
Parte 2) i) Introducción al aprendizaje por refuerzo, ii) El problema de la máquina tragamonedas, iii) Procesos de decisión de Markov, iv) Programación dinámica, v) Métodos de Monte Carlo, vi) Aprendizaje de diferencias temporales, vii) Bootstrapping, viii) Métodos de planificación y aprendizaje tabular, ix) Predicción con aproximación según la política, x) Control con aproximación según la política, xi) Rastros de elegibilidad, y xii) Métodos de gradiente de políticas.
Parte 3) Revisión de redes neuronales artificiales: i) Redes totalmente conectadas, ii) Redes convolucionales; Aprendizaje por refuerzo profundo; iii) Aprendizaje Q profundo; iv) Gradiente de políticas avanzado; v) Heurísticas y metaheurísticas, vi) Neuroevolución.
Obs.: Consultar Catálogo vigente na DAC.
Forma Avaliação: Listas de exercícios, avaliação e elaboração de trabalhos em grupo em Python com apresentação final.
Ofertar para Graduação:
Sim Número Limite de Alunos de Graduação:
10
Aceita Estudante Especial:
Sim
Número de Alunos Total:
de 5 até 50