Статьи

От оповещения к вскрытию: как справиться с отключением с помощью VictorOps

Эта статья была спонсирована VictorOps . Спасибо за поддержку спонсоров, которые делают возможным использование SitePoint.

Что происходит, когда вы получаете уведомление о том, что ваше критически важное приложение или веб-сайт не работает или работает неправильно? Конечно, у большинства команд есть обширный набор сервисов, которые сообщают им, когда что-то не так, но что вы делаете, когда приходит время внедрять решение? Вам нужен план, а также возможность быстро его реализовать. Подход DevOps может показаться простым, но на самом деле он сложный. К счастью, есть сервисы, которые облегчают такой процесс.

Введите: VictorOps

Одним из таких сервисов является VictorOps . VictorOps призван облегчить DevOps во всех аспектах процесса вызова. Они делают это, предоставляя обширный набор функций, каждая из которых направлена ​​на лучшее управление внутренней работой разнообразной команды DevOps.

Платформа VictorOps включает в себя такие функции, как управление вызовом, уведомление об инциденте, расширенные возможности временной шкалы, совместная работа в команде и аннотации / преобразования предупреждений. Каждая из этих функций может быть настроена и может оказаться полезной для любой команды, независимо от ее размера или возможностей. Когда VictorOps поддерживает вашу команду, многие из проблем, с которыми сталкиваются инженеры DevOps, начинают исчезать ( усталость от оповещения реальна! ), Что позволяет вашей команде вернуться в продуктивное и полезное состояние.

Жизненные циклы с VictorOps

Каждый инцидент имеет свой собственный жизненный цикл, начиная с момента появления предупреждения и заканчивая удержанием после смерти, когда он заканчивается. Имея это в виду, давайте посмотрим, как VictorOps помогает вам работать с жизненным циклом инцидента, чтобы помочь вам быстрее решить проблему.

Отправка оповещений в VictorOps

Фильтрация через оповещения

Оповещения поступают постоянно, и хотя некоторые из них содержат важную информацию, многие могут быть неактуальными и бесполезными. При этом первое, что VictorOps помогает вам достичь в жизненном цикле инцидента, — это обеспечение того, что нужных людей оповещают о проблемах в их проблемной области с помощью расширенной маршрутизации.

Расширенная маршрутизация позволяет программно оповещать членов группы по вызову о проблемах, требующих внимания. Как только VictorOps обнаруживает предупреждение, которое вы определили как критическое, оно запускает процесс подкачки в точности так, как вы его настроили, само по себе открытое для множества настроек и пользовательских настроек. Пользователи могут получать оповещения о входящих оповещениях с помощью push-уведомлений, SMS, электронной почты и телефона, все через определенные и заданные интервалы.

Transmogrifier — это недавно запущенная функция VictorOps, которая значительно увеличивает значение, которое может обеспечить среднее оповещение. Эта функция позволяет повышать уровень предупреждений при соблюдении определенных условий, снабжать их примечаниями к документации и / или примечаниями разработчика и многим другим. Вы можете просмотреть подробный обзор Transmogrifier здесь .

VictorOps Transmogrifier в действии

Хронология

После фильтрации ваших предупреждений и уведомления разработчиков по вызову временная шкала VictorOps поможет вам увидеть весь масштаб инцидента по мере его развития. Эта временная шкала доступна с настольных и мобильных устройств, что позволяет вам решать проблемы внутри и за пределами офиса. Временная шкала также является многопоточной, что означает, что вы можете использовать временную шкалу для получения ситуационной осведомленности о других сигналах тревоги от ваших систем, которые могут способствовать возникновению проблемы, вместо того, чтобы только отображать ограниченную информацию, относящуюся к одному предупреждению. Думайте о временной шкале как о центре внимания на платформе VictorOps. Временная шкала показывает все оповещения, приходящие из вашей системы, кто находится на странице, и разговор, касающийся идентификации и решения проблемы.

Воспользовавшись панелью инцидентов

Члены вашей команды DevOps могут видеть панель инцидентов, которая представляет собой детальное представление о критических тревогах в их системе. Оттуда они могут подтвердить или перенаправить проблему одной или нескольким командам, а также иметь возможность фильтровать панель инцидентов по элементам, которые осуществляют их разбиение по страницам, по командам подкачки, в которых они работают, или по всем событиям подкачки.

связь

В течение всего жизненного цикла инцидента VictorOps предоставляет обширные средства коммуникации, чтобы ваша команда могла работать вместе. Это включает в себя соглашения Twitter, такие как @messaging и интеграция с платформой чата (хотя VictorOps развил эту концепцию дальше с @@ сообщениями, которые позволяют пинговать всю команду в чате). Что касается чата, VictorOps предлагает надежную интеграцию с любым клиентом чата, который использует ваша компания, включая двунаправленную интеграцию со Slack и HipChat. Пользователи могут даже общаться в определенных инцидентах, чтобы сделать их заметки частью журнала разрешения инцидентов.

Мобильное приложение VictorOps

Постмортемы и отчетность

Несмотря на то, что предупреждение может быть устранено, жизненный цикл инцидента еще не завершен. Всегда важно собирать информацию о том, как ваша команда обрабатывает оповещения, чтобы при необходимости можно было вносить улучшения. Вот почему VictorOps предоставляет пользователям инструмент Post-Mortem. Этот инструмент позволит вам выделить часть графика для использования в ретроспективах и отчетности по SLA для внутренних и внешних компонентов.

VictorOps поддерживает «непрерывную документацию» с помощью отчетов о частоте происшествий и после смерти, что облегчает обсуждение вопроса о том, все ли оповещения являются действующими, и если да, то актуальность документации Runbooks и Triage.

Дайвинг через гипотетическое оповещение

Гипотетический инцидент в VictorOps

Итак, предположим, что вы все настроены на платформе VictorOps, и вы получили первое предупреждение. Что происходит? Что ж, еще до того, как предупреждение попадет к вам, Transmogrifier усердно трудится, обеспечивая правильные оповещения нужным людям и всю необходимую вам информацию для решения проблемы. Вы даже можете остановиться на этом, просто потому, что Transmogrifier так много для вас обрабатывает, и однажды сложные проблемы решаются за считанные минуты. Но давайте представим, что это предупреждение уведомляет вас об особо сложной ошибке. Используя пользовательские фильтры, которые предоставляет Transmogrifier, несколько других участников уведомляются о проблеме, гарантируя, что все правильные люди в вашей команде участвуют в перестрелке. Ну и что дальше?

Следующим и наиболее полезным делом будет посещение временной шкалы VictorOps. Здесь вы можете увидеть с высоты птичьего полета инцидент, когда он разворачивается. Поскольку эта конкретная проблема является серьезной, вы, вероятно, получите несколько других предупреждений и предупреждений, связанных с ней. Не беспокойтесь, потому что панель инцидентов позволит вам увидеть, что это происходит за милю, и вместо того, чтобы запутаться и потратить ресурсы, вы можете игнорировать эти новые предупреждения, зная, что они исчезнут, как только будет решена большая проблема.

Хорошо, что ваши ведущие разработчики имеют доступ к панели инцидентов, потому что некоторые члены вашей команды понимают, что им понадобится помощь нескольких других разработчиков. Услышав это, они быстро могут пейджировать больше членов команды, принося больше поддержки в перестрелке. Но как вы все поддерживаете связь друг с другом? Конечно же, интеграция с чатом VictorOps! В прошлом многие из этих проблем решались по электронной почте, что приводило к путанице и плохому времени отклика. Но теперь у вас под рукой есть возможности VictorOps, и вместе с ними вы получаете множество отличных инструментов коммуникации, гарантирующих, что все члены вашей команды находятся на одной странице.

В конечном итоге (надеюсь, быстро!) Предупреждение наконец-то разрешено, что приводит к минимальному времени простоя и общему положительному опыту членов вашей команды. Но мы пока не можем остановиться! На завтрашней утренней ссоре вы захотите обсудить проблему с вашей командой, подробно описав, что пошло не так, как это было исправлено, и что можно сделать лучше в следующий раз, чтобы предотвратить проблему. Вот тут-то и появляется инструмент VictorOps Post-Mortem. С помощью инструмента Post-Mortem вы можете выбрать наиболее актуальный раздел временной шкалы оповещений, чтобы показать наиболее важные проблемы всего жизненного цикла оповещений. Используя эту информацию, вы сможете помочь своей команде составить план, чтобы проблема, которую вы решили сегодня, не стала проблемой, которую вам придется решать завтра.

Вывод

Использование VictorOps позволяет лучше общаться, планировать и после смерти до, во время и после каждого инцидента. В приведенном мною примере команде разработчиков DevOps с базовым планом и инструментами для его реализации удалось решить проблему гораздо более организованно и упорядоченно, чем традиционные подходы. Платформа VictorOps не только обеспечивает более быстрое время отклика, но также и более быстрое время разрешения. Что наиболее важно, VictorOps всегда готов помочь вашей команде по вызову, предоставляя множество функций для обеспечения их производительности и снижения утомляемости. Если вам интересно, как VictorOps будет работать для вашей команды, нажмите здесь, чтобы попробовать его бесплатно в течение 14 дней !

Чтобы увидеть, как VictorOps может помочь вам в течение всего жизненного цикла инцидента, ознакомьтесь с его руководством, которое разбивает каждую фазу по отдельности.