Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для группы НС213.
Преподаватель: Илья Дюгай
0:00 Обучение с учителем
2:13 Терминология: агент, функция награды, состояние среды
9:55 Отличие от supervised learning
10:58 Классические примеры задач RL
12:08 Особенности и сложности RL.
26:38 Состояние среды (State)
29:00 Markov property
31:01 Markov process
33:51 Награда (Reward)
36:00 Суммарная награда (Return)
39:33 Марковский процесс принятия решений
50:11 Уравнение Беллмана
58:13 Gym
1:02:24 Нахождение лучшей последовательности переходов
1:04:55 Нахождение оптимальной политики Беллмана
1:16:04 Q - Learning
1:28:22 Exploration vs exploitation
1:36:15 Deep Q-Learning
1:39:08 Loss
1:40:39 Алгоритм обучения
1:55:22 TD-Loss
1:56:59 Пример c CartPole DQN
2:09:08 Дальнейшие идеи
Официальный сайт:
Инстаграм: