Новый Zabbix — новые оповещения

система мониторинга zabbixПоскольку переход на новый zabbix состоялся и назад пути уже нет, мне пришлось крепко задуматься над оповещениями, которые этот самый zabbix рассылает. А задуматься есть над чем: если раньше сработавшие триггеры выдавали состояния «ON/OFF», то теперь — «PROBLEM/OK». И эта проблема вовсе на такая мелкая, как может показаться на первый взгляд, особенно если учесть, что оповещения приходят в разное время суток людям с разной степенью адекватности их восприятия.

С одной стороны, это изменение к лучшему: «эргономика» повысилась и когда в 4 утра приходит SMS, спросонья спутать «PROBLEM» с «OK» гораздо труднее, чем «ON» с «OFF». И это хорошо. А с другой стороны, после обновления в оповещениях появились такие «шедевры», как «flycat.info: Low free disk space on volume /www/cache: OK».

Напомню, раньше это выглядело как «flycat.info: Low free disk space on volume /www/cache: OFF». С этим нужно было что-то делать, потому что некоторые оповещения получали весьма далёкие от системного администрирования и zabbix люди, которые резонно недоумевали: «Так что там у нас со свободным местом — его мало, или всё-таки ОК?»

Кроме того, есть категория триггеров, которые проблемы в себе не содержат, например, изменение количества пользователей на машине. Раньше оповещение об этом выглядело более «нейтрально»: «flycat.info: Number of connected users changed: ON». Сейчас это стало «проблемой»: «flycat.info: Number of connected users changed: PROBLEM». Не очень приятно получать такое сообщение, но, похоже, выхода здесь нет.

В ходе экспериментов удалось выработать общие требования к формулировке текста триггера и сообщения:

  • Оповещение должно быть понятным и не допускать двойного толкования
  • Содержание текста триггера должно быть как можно короче (не в ущерб содержательности), чтобы, по возможности, SMSка помещалась на экране сотового без прокрутки
  • Триггер должен понятно выглядеть и в оповещении (по почте, SMS, Jabber) и в Zabbix Dashboard и в «Monitoring — Triggers»
  • Поскольку статус теперь явно указывает на проблему, формулировка триггера должна быть близка к формулировке айтема, его породившего
  • Для удобства мы убрали переменную {HOSTNAME} из всех триггеров и «загнали» её непосредственно в Action оповещений

Теперь осталось, подобно скульпторам, «отсчечь всё лишнее». Таким образом формулируя триггер про свободное место в таком виде: «Free space on /www/cache», мы получаем оповещение формата: «flycat.info: Free space on /www/cache: PROBLEM». По-моему, всё очень понятно и недвусмысленно: проблема со свободным местом на /www/cache на машине flycat.info.

Теперь разберёмся с доступностью/недоступностью. Прежняя формулировка была: «flycat.info: Server is unreachable — ON». Поразмыслив, мы убрали «сервер» и изменили это в «flycat.info: Reachability: PROBLEM». Проблема, так сказать, с доступностью. Кстати, странно, почему-то в одном шаблоне встречаются формулировки «Host information was changed on…» и «Server is unreachable». В общем, чтобы не заморачиваться на этот счёт, мы всё удалили 🙂

Удалены были также все туманные слова «Lack of free swap space…» и «Low free disk space…» а также » Low number of free inodes».  (И почему swap — Lack, а дисковое место и иноды — low?) Теперь всё чётко: имя машины (flycat.info), параметр (free swap), его значение («PROBLEM/OK»).

Все триггеры, отвечающие за процессы, теперь выглядят так: «flycat.info: Process SSHD: PROBLEM». Это значит, что упал SSHD.

А изменение количества зашедших пользователей теперь выглядит как «flycat.info: N of logins changed: PROBLEM«. Немного корявенько, но тоже вполне понятно.

После того, как изменения были опробованы на отдельной машине (текст приходящих сообщения читался и в почтовом клиенте и на сотовом в виде SMS), и формулировки были признаны удачными, пришло время поправить шаблоны и распространить изменения на все машины.

Конечно, такие изменения — не догма и предполагается изменять формулировки и дальше. Кстати, интересно было бы узнать мнение читателей и их опыт в этой области.

Один комментарий к “Новый Zabbix — новые оповещения

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *