Дмитриев К.В. - Методы машинного обучения в анализе изображений - 14. Обучение с подкреплением
00:00:19 Алгоритмы бустинга. Градиентный бустинг. CatBoost. Доклад Воропаева Романа
00:07:14 Обучение с подкреплением (ОП). Виды ОП
00:15:50 Задача “многорукого бандита“
00:41:05 Конечный марковский процесс принятия решений. ОП без моделирования системы
01:03:52 Метод Монте-Карло. Метод SARSA. Метод Q-обучения. Методы on- и off-policy
01:22:36 Аппроксимация функции значимости. Метод DQN. Policy gradient
01:40:28 ОП с моделированием среды. Недостатки ОП
Ссылка на плейлист: