Это старая версия документа!
Zabbix
Описание
Система мониторинга, состоит из нескольких частей, которые можно разнести, в случае большой нагрузки.
сервер мониторинга, который выполняет периодическое получение данных, обработку, анализ и запуск скриптов оповещения
база данных, реляционная (MySQL, postgres, sqlite, oracle)
веб интерфейс
агенты, службы работающие на отслеживаемых объектах, отправляющие данные серверу. Так же может использоваться трафик SNMP, внешние скрипты, выдающие данные, и несколько видов встроенных проверок, типа ping/http/ssh..
прокси, может применяться для распределения нагрузки на основной сервер
Кроме агентов, есть целый ряд доп возможностей для сбора информации:
Simple check - простые операции в т.ч. пинг
Zabbix trapper - сбор инфы с т.н. трапперов, некие «мосты» между используемыми сервисами и самой системой
Zabbix aggregate - сбор совокупной информации из БД
SSH agent - подключение по SSH, используя указанные команды
Calculate - проверки, сопоставляя имеющиеся данные, + можно нивелировать погрешность пинга между агентом и основным сервером, разместив прокси рядом с агентами
Основная логическая единица это Узлы сети (host), наблюдаемые машины. У каждого есть описание и адрес (dns/ip). Узлы объединяются в группы.
Каждый узел имеет несколько элементов данных (items)- параметров, за которыми ведется мониторинг, для каждого можно указать период обновления, способ хранения, множитель, интервал сбора и т.д.
Так же, можно создавать узлы-шаблоны, они так же содержат элементы данных, но не мониторятся, а используются только для сбора в себе и назначения предопределенных (групп) пар-ов.
Триггеры
Логические выражения со значениями False, True, Unknown, используемые для обработки данных.
У каждого существует уровень серьезности угрозы:
Функции триггеров:
abschange, change - разница между последним-предпоследним значениями
avg - среднее за определенный интервал
count, sum - кол-во отчетов по критерию
date, dayofweek, now, time - дата/время
last, prev, max\min - определенные значения
Действия
Заданная реакция на событие, авто/созданная в ручную
Event source - может служить: авторегистрация, обнаружение или триггер
Enable escalations, Period - разрешение на эскалацию, период времени шага эскалации
Default subject, Default message - извещенец по умолчанию, стандартный текст сообщения
Recovery subject/message - тоже самое, только после устранения
Status - вкл/выкл видимо
Операции
Операции/группы операций, указываются для событий
Operation type - д-я на определенном шаге
Event source - источник события
Send message to - отдельное/групповое сообщение
Subject/Default message/Message - оповещенец, текст сообщения
Remote command - команда для удаленного управления
Низкоуровневое обнаружение
Авто-создание элементов и триггеров, для отслеживания систем, наблюдаемого сервера.
Позволяет обнаружить: OID SNMP, сетевые интерфейсы, процессоры и ядра, файловые системы, службы windows, ODBC
Так же, можно задать собственные типы обнаружения, с применением JSON, типы проверок типа: ssh, ldap, smtp, ftp, http и т.д.