Лекция №15 “Обучение с подкреплением“

Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для группы НС243 пятого потока обучения. Преподаватель: Александр Ивченко Дата: 00:00 Начало 00:28 Как работает обучение с подкреплением 00:49 Терминология: агент, функция награды, состояние среды 02:38 Классические примеры задач RL 04:14 Особенности и сложности RL 07:41 Gym 12:16 Пространства действий и наблюдений 13:57 Взаимодействие со средой 14:18 Создание своей среды 16:05 Жадная стратегия 19:06 ε-жадная стратегия 22:45 Markov property 24:31 Markov process 26:11 Матрица состояний 26:15 Награда (Reward) 26:55 Суммарная награда (Return) 29:53 Марковский процесс принятия решений 32:05 Формальное описание MDP 35:10 Нахождение лучшей последовательности переходов 38:53 Уравнение Беллмана 46:18 Нахождение оптимальной политики Беллмана 52:08 Траектории MDP 56:41 Q-Learning 01:08:48 Deep Q-Learning 01:18:31 Пример c CartPole DQN

3 views

1840

575