Андрей Кузнецов. ML инфраструктура с настоящим хайлоадом
В докладе поговорим о том, как устроена ML инфраструктура в Oдноклассниках, которая позволяет:
- Учить модели и обрабатывать данные порядков сотен петабайт.
- Хранить и отдавать в реалтайме терабайты фичей под нагрузкой в сотни тысяч RPS.
- Надежно оркестрировать и мониторить сотни продакшен пайплайнов.
- Регистрировать и хранить результаты и артефакты всех ML экспериментов.