Обучение LLaMa с подкреплением (Reinforcement Learning from Human Feedback, RLHF)

Материалы к видео: 00:00 - установка requirements 01:50 - LoRa-адаптеры 02:48 - датасет StackExchange для обучения LLaMa 08:01 - обучение Reward Model 13:40 - обучение LLaMa генерировать ответы на вопросы с помощью PPO (Proximal Policy Optimization)
Back to Top