Прокачка алертов: как постмортемы и ранбуки меняют игру?

Рассмотрим: 🔵что такое постмортем, как с ним работать и извлекать выгоду Кратко: post mortem — это анализ инцидента, который проводится после того, как проблема решена. Он нужен для того, чтобы извлечь уроки из сбоев, выявить root causes (корневые причины), найти слабые места в системе и усовершенствовать процессы. Особенно это полезно, когда есть повторяющиеся проблемы, которые приводят к деградациям и потерям. Такой подход позволит устранить конкретную проблему и снизить вероятность её повторения в будущем. Ещё расскажем и покажем: 👉 зачем нужен ранбук и как его писать 👉 как обычный алерт можно превратить в полезный инструмент с помощью постмортема и ранбука Спикеры: 🔵Кирилл Борисов, SRE в VK 🔵Максим Гусев, SRE Dodo Engineering Уникальные кейсы из реальной практики и финансовые вопросы инцидентов в крупных компаниях — на нашей встрече! С 18 ноября 3 недели будем учиться SRE. Программа сделана с участием SRE-инженеров из ведущих международных компаний — Google, Booking, Databricks, TangoMe, Яндекс, Ecommpay, Финам. Узнать подробности и занимать места по ссылке:
Back to Top