- Для чего нужен RLHF
- Примеры работы модели в диалоговом режиме без SFT и RL fine-tuning
- Как тюнить большие модели на одной карте
- SFT fine-tuning
- Обучение RM
- Дообучение модели с PPO
- Демонстрация результатов было vs стало
- Разбор концепций, которые использовали в ходе обучения (LoRA adapters, Int8 quantization, PPO, RM training loss, …)
Cсылка на ноутбук:
Data Fest 2023:
Трек “Instruct Models“:
Наши соц.сети:
Telegram:
Вконтакте:
16 views
130
33
3 weeks ago 00:03:25 5
Александр Айвазов“Бабочка луна“Москва.Колизей Холл. г