Статьи

4 оповещения, которые вам нужны в случае остановки системных событий

«Молчание — золото»

Это не всегда так, особенно когда чего-то, чего вы ожидали  , не  произошло.

Однако это верно, когда у вас есть система или служба, которую вы пытаетесь поддерживать, и все перестает происходить или затихает.

Недавно мы разработали новую услугу —  Уведомление об отсутствии активности  — чтобы помочь вам решить эту распространенную проблему и, как вы можете ожидать, она генерирует оповещения, когда вокруг определенного журнала или события отмечается отсутствие активности.

Вы можете настроить оповещение о неактивности, чтобы оно срабатывало, если журнал прекращает отправку событий полностью, вы можете посмотреть, не пересылаются ли конкретные события, вы также можете использовать сравнения на KVP, такие как (>, <, =,> =, ! =) и регулярные выражения для поиска журналов, которые содержат ожидаемую остановку шаблона.

Я включил четыре основных предупреждения, которые должны быть в наличии, чтобы вы знали, когда события журнала перестают происходить или происходят значительные изменения в поведении системы.

системные события перестают происходить 4 примера предупреждений, которые вам нужны

1. Оповещение, когда журнал перестает регистрироваться:

Возможно, вы захотите получить уведомление, если система или приложение вообще прекратят отправку событий. Типичным примером является случай, когда у вас есть аппаратное обеспечение, такое как брандмауэр, который почти всегда отправляет события. Но он посылает широкий спектр событий, поэтому вы не удивитесь, если  не  увидите конкретные события в течение длительного периода. Но если он вообще прекратит отправку событий, это может означать, что брандмауэр не работает.

Чтобы создать, просто настройте предупреждение об отсутствии активности (но не указывайте точный шаблон, который нужно распознать) и укажите разрешенное время бездействия, которое вы можете настроить позже. Результатом является оповещение, которое срабатывает, если никакие события не доставляются из этого журнала в течение периода бездействия, который вы указали.

2. Оповещение о сердцебиении

Поскольку системы и приложения становятся все более сложными и имеют все больше зависимостей, полезно знать, что ваше приложение по-прежнему имеет доступ ко всем необходимым ресурсам.

Простой способ отслеживания состоит в том, чтобы приложение регулярно регистрировало пульс. Сделав этот шаг дальше, вы можете сделать так, чтобы ваше приложение регистрировало пульс проверки работоспособности для определенных ресурсов, которые ему необходимы. Примером может быть соединение с БД.

Проверка того, что у приложения есть ресурсы для взаимодействия с БД (и регулярная регистрация этого), позволяет легко гарантировать, что ваше приложение отвечает должным образом.

Пример журнала Heartbeat:


12:14:26 — Server01 — Heartbeat_DB_connection = OK

Создайте предупреждение об отсутствии активности, как показано ниже:

тег оповещения о неактивности

3. Оповещение о прекращении определенных событий

Современные приложения обычно довольно сложны в своих зависимостях и тонкостях. К сожалению, это означает, что проблема в одном разделе может привести к проблеме в другой области, которая является критически важной.

Простым примером может быть проблема с конфигурацией, которая может привести к тому, что уровни запасов определенных товаров в каталоге будут помечены как недоступные.

Это не может быть подхвачено, так как сайт / приложение все еще могут функционировать, просто у пользователей не будет элементов, которые они могут приобрести.

Чтобы помочь компании определить, когда критические события перестают происходить, например, конкретные события продаж, компания должна использовать оповещение об отсутствии активности, чтобы уведомлять их, когда это происходит.

Например, другая компания может рассчитывать на онлайн-продажу каждую минуту, но иногда случаются 5-минутные провалы. Установив оповещение о неактивности (чтобы предупредить о том, что в течение 10 минут не было продаж), компания может поднять свой мониторинг на следующий уровень и оповещать в зависимости от ожидаемого поведения пользователя. Теперь они могут обнаруживать любые проблемы, которые приводят к тому, что пользователи не могут совершать покупки в столь короткие сроки.

4. Оповещение, когда события имеют значения ниже определенного уровня

Использование KVP в журнале дает пользователю огромную точность с их предупреждением о неактивности.

Возможно, вам необходимо знать, имеет ли время отклика вашего журнала значение, превышающее определенное значение, или вообще перестает регистрироваться.

2014-10-19 09:18:40 at=info method=GET path=/images/sample.gif host=aaa.herokuapp.com fwd="128.249.38.195/NX" dyno=web.1 connect=1ms service=125ms status=status bytes=6168 userID=user9144121

В приведенном выше примере журнала есть время обслуживания для конкретного события. Может быть большой процент событий, которые вы ожидаете отреагировать быстро (менее 500 мсек), но может быть несколько случаев, когда ожидается медленное время ответа. Это означает, что вы не можете предупредить, если время отклика превышает 500 мс, так как время от времени вы ожидаете медленного времени отклика.

Настроив оповещение об отсутствии активности для отслеживания того, что более быстрые события все еще происходят, вы можете получать уведомления, если ваше приложение замедляется, но оповещение учитывает более медленные события, которые вы ожидаете.

падение события оповещений о неактивности

Предупреждение об отсутствии активности в журнале, строках, шаблонах или сравнениях невероятно простое и мощное, и его следует использовать везде, где вам нужно знать, работает ли ваше приложение и работает ли он должным образом.