Пятнадцатое занятие на курсе «Нейронные сети и их применение в научных исследованиях» для группы НС224. Преподаватель: Александр Пославский
00:00:07:00 Обучение с учителем
00:01:16:21 Обучение без учителя
00:02:26:25 Обучение с подкреплением
00:03:28:24 Терминология: агент, функция награды, состояние среды
00:04:51:09 Отличие от supervised learning
00:07:46:14 Классические примеры задач RL
00:14:33:19 Особенности и сложности RL. Низкая скорость обучения (sample efficiency)
00:14:35:14 Низкая скорость обучения (sample efficiency)
00:17:02:10 Сложное проектирование функции награды
00:21:08:10 Невоспроизводимость обучения
00:22:59:08 Датасеты
00:23:13:24 Gym
00:25:27:03 Пространства действий и наблюдений
00:29:10:28 Взаимодействие со средой
00:29:56:13 Создание своей среды
00:42:42:21 Markov property
00:44:45:26 Markov process
00:50:08:11 Определение
00:50:12:23 Матрица состояний
00:50:39:14 Награда (Reward)
00:53:51:09 Суммарная награда (Return)
00:58:04:14 Дисконтирование (discounting)
01:04:31:29 Марковский процесс принятия решений
01:06:58:18 Формальное описание MDP
01:08:11:25 Пример
01:11:22:10 Нахождение лучшей последовательности переходов
01:13:10:20 Value function
01:15:12:21 Определение Value Function
01:15:33:05 Уравнение Беллмана
01:15:34:10 Определение Optimal Value Function
01:15:40:01 Bellman equation
01:17:47:09 Нахождение оптимальной политики Беллмана
01:17:50:13 Политика не обязана быть оптимальной
01:21:51:14 Policy iteration
01:27:19:02 Value Iteration
01:42:28:08 Temporal difference (TD) learning
01:44:54:25 Q-Learning
01:50:16:15 Deep Q-Learning
02:01:55:16 Loss
02:01:57:27 Approximate Q-learning
02:01:58:05 Алгоритм обучения
02:02:11:17 Experience replay
02:09:35:14 Terget network
02:12:42:01 Пример c CartPole DQN
02:13:53:28 Building a network
02:15:42:05 Experience Replay Buffer and Target Networks
02:15:53:22 TD-Loss
02:15:57:04 Main loop
02:20:06:24 Дальнейшие идеи
02:21:39:05 Другие улучшения DQN
02:22:42:10 Double DQN
02:23:59:09 Альтернативные подходы
Ссылка на лекцию:
VK:
Telegram:
Сайт: