Мониторинг и управление отказами

Для обеспечения корректной работы ресурсов в кластере необходимо настроить их регулярную проверку. В Pacemaker для этого используется операция monitor.

Операция мониторинга добавляется в момент создания ресурса с указанием интервала:

sudo pcs resource create nginx systemd:nginx op monitor interval=30s

Если ресурс уже создан, параметр можно добавить отдельно:

sudo pcs resource op add nginx monitor interval=30s

Pacemaker отслеживает результат работы проверки и реагирует согласно установленной политике. Рекомендуется также задать параметры, определяющие поведение кластера при сбоях:

  • migration-threshold — количество сбоев, после которого ресурс переносится на другой узел;
  • failure-timeout — интервал (в секундах), через который сбой считается неактуальным и может быть повторно допущен;
  • on-fail — политика действия при сбое (restart, fence, standby, block и др.).

Пример команды:

sudo pcs resource update nginx migration-threshold=2 failure-timeout=60 on-fail=restart

Для отслеживания статуса ресурсов рекомендуется использовать команду:

sudo pcs status resources

Логирование событий выполняется службой Pacemaker и доступно через системный журнал:

journalctl -u pacemaker