Антология технологий Яндекс Такси. Надёжность сервиса

В новой серии «Антологии технологий» рассказываем про отказоустойчивость — основное свойство системы такси, которое позволяет приложению работать 24/7. Как сделать так, чтобы сервис справлялся с любыми нагрузками даже в праздники? Для этого есть множество решений. Например, тестовые отключения дата-центров и искусственные нагрузки позволяют рассчитать необходимое количество «железа», дашборды и роботы мониторят здоровье системы в реальном времени, а координаторы и разработчики симулируют поломки в тестовой копии приложения, чтобы быть готовыми к реальным инцидентам. Смотрите новую серию, чтобы узнать о стабильной работе приложения подробнее. 00:00 — О чем серия 01:23 — Что такое отказоустойчивость 01:53 — Как избежать точек отказа в архитектуре 03:46 — Проверка кода 04:33 — Тестовое окружение, через которое проходят новые фичи 05:07 — Плавная выкатка и проверки на команде Яндекс Такси 05:38 — Как рассчитать серверные мощности и почему нельзя залить все железом 07:25 — Зачем искусственно увеличивать количество заказов 08:35 — Что может случиться с дата-центрами и зачем нужны плановые отключения 09:44 — Почему разработчики иногда специально крушат систему 10:39 — Как выглядит процесс симуляции инцидента 11:35 — Кошмар разработчика 12:31 — Дашборды с графиками, которые помогают обнаружить проблему 13:15 — Процесс починки и первые действия автоматики 14:14 — Что такое режим деградации и когда он включается 15:26 — Кто помогает избежать хаоса 16:57 — Где разработчиков может застать поломка. Лайфхаки координаторов 17:37 — Правила починки, помогающие сохранять самурайское спокойствие 18:43 — Почему система восстанавливается не сразу 19:49 — Зачем обрабатывать запросы задом-наперед 21:04 — Как вернуть водителей на линию 21:42 — Разбор и анализ инцидента 22:32 — Как разработчики встречают Новый год 23:55 — Резюме

1 view

2609

721