«Zero-cost fault tolerance в распределённом глубоком обучении»
«Zero-cost fault tolerance в распределённом глубоком обучении»
Алексей Морозов, Руководитель группы модернизации нейронных сетей, Яндекс Рекламные технологии
Поделимся опытом, как можно полностью инкапсулировать от ML’щика и исследователя заботу о fault tolerance, распределённой транзакционной записи в storage, асинхронности и минимизации простоев GPU. Дать возможность пользователю автоматически масштабироваться и вообще не думать об инфраструктурных вопросах.
1 view
484
247
12 months ago 00:41:25 1
«Zero-cost fault tolerance в распределённом глубоком обучении»