Поскольку переход на новый zabbix состоялся и назад пути уже нет, мне пришлось крепко задуматься над оповещениями, которые этот самый zabbix рассылает. А задуматься есть над чем: если раньше сработавшие триггеры выдавали состояния “ON/OFF”, то теперь — “PROBLEM/OK”. И эта проблема вовсе на такая мелкая, как может показаться на первый взгляд, особенно если учесть, что оповещения приходят в разное время суток людям с разной степенью адекватности их восприятия.
С одной стороны, это изменение к лучшему: “эргономика” повысилась и когда в 4 утра приходит SMS, спросонья спутать “PROBLEM” с “OK” гораздо труднее, чем “ON” с “OFF”. И это хорошо. А с другой стороны, после обновления в оповещениях появились такие “шедевры”, как “flycat.info: Low free disk space on volume /www/cache: OK”.
Напомню, раньше это выглядело как “flycat.info: Low free disk space on volume /www/cache: OFF”. С этим нужно было что-то делать, потому что некоторые оповещения получали весьма далёкие от системного администрирования и zabbix люди, которые резонно недоумевали: “Так что там у нас со свободным местом — его мало, или всё-таки ОК?”
Кроме того, есть категория триггеров, которые проблемы в себе не содержат, например, изменение количества пользователей на машине. Раньше оповещение об этом выглядело более “нейтрально”: “flycat.info: Number of connected users changed: ON”. Сейчас это стало “проблемой”: “flycat.info: Number of connected users changed: PROBLEM”. Не очень приятно получать такое сообщение, но, похоже, выхода здесь нет.
В ходе экспериментов удалось выработать общие требования к формулировке текста триггера и сообщения:
- Оповещение должно быть понятным и не допускать двойного толкования
- Содержание текста триггера должно быть как можно короче (не в ущерб содержательности), чтобы, по возможности, SMSка помещалась на экране сотового без прокрутки
- Триггер должен понятно выглядеть и в оповещении (по почте, SMS, Jabber) и в Zabbix Dashboard и в “Monitoring – Triggers”
- Поскольку статус теперь явно указывает на проблему, формулировка триггера должна быть близка к формулировке айтема, его породившего
- Для удобства мы убрали переменную {HOSTNAME} из всех триггеров и “загнали” её непосредственно в Action оповещений
Теперь осталось, подобно скульпторам, “отсчечь всё лишнее”. Таким образом формулируя триггер про свободное место в таком виде: “Free space on /www/cache”, мы получаем оповещение формата: “flycat.info: Free space on /www/cache: PROBLEM”. По-моему, всё очень понятно и недвусмысленно: проблема со свободным местом на /www/cache на машине flycat.info.
Теперь разберёмся с доступностью/недоступностью. Прежняя формулировка была: “flycat.info: Server is unreachable – ON”. Поразмыслив, мы убрали “сервер” и изменили это в “flycat.info: Reachability: PROBLEM”. Проблема, так сказать, с доступностью. Кстати, странно, почему-то в одном шаблоне встречаются формулировки “Host information was changed on…” и “Server is unreachable”. В общем, чтобы не заморачиваться на этот счёт, мы всё удалили 🙂
Удалены были также все туманные слова “Lack of free swap space…” и “Low free disk space…” а также ” Low number of free inodes”. (И почему swap — Lack, а дисковое место и иноды — low?) Теперь всё чётко: имя машины (flycat.info), параметр (free swap), его значение (“PROBLEM/OK”).
Все триггеры, отвечающие за процессы, теперь выглядят так: “flycat.info: Process SSHD: PROBLEM”. Это значит, что упал SSHD.
А изменение количества зашедших пользователей теперь выглядит как “flycat.info: N of logins changed: PROBLEM“. Немного корявенько, но тоже вполне понятно.
После того, как изменения были опробованы на отдельной машине (текст приходящих сообщения читался и в почтовом клиенте и на сотовом в виде SMS), и формулировки были признаны удачными, пришло время поправить шаблоны и распространить изменения на все машины.
Конечно, такие изменения — не догма и предполагается изменять формулировки и дальше. Кстати, интересно было бы узнать мнение читателей и их опыт в этой области.
Лично я вернул все в ON/OFF.