Петр Кудеров | Методы Актор-Критик в CleanRL: PPO, SAC, DDPG

Младший научный сотрудник AIRI, инженер-исследователь ФИЦ ИУ РАН Петр Кудеров рассказывает про продвинутые алгоритмы из семейства актор-критик методов (PPO, SAC, DDPG) на примере их реализации в библиотеке CleanRL. Ссылка на библиотеку CleanRL: Ссылки на реализации рассмотренных алгоритмов: 1) PPO: 2) SAC: 3) DDPG: Плейлист со всеми лекциями «Лето с AIRI»: Анонсы научных мероприятий всегда публикуются в Telegram-канале AIRI:
Back to Top