Мониторинг и управление отказами
Для обеспечения корректной работы ресурсов в кластере необходимо настроить их регулярную проверку. В Pacemaker для этого используется операция monitor.
Операция мониторинга добавляется в момент создания ресурса с указанием интервала:
sudo pcs resource create nginx systemd:nginx op monitor interval=30s
Если ресурс уже создан, параметр можно добавить отдельно:
sudo pcs resource op add nginx monitor interval=30s
Pacemaker отслеживает результат работы проверки и реагирует согласно установленной политике. Рекомендуется также задать параметры, определяющие поведение кластера при сбоях:
- migration-threshold — количество сбоев, после которого ресурс переносится на другой узел;
- failure-timeout — интервал (в секундах), через который сбой считается неактуальным и может быть повторно допущен;
- on-fail — политика действия при сбое (restart, fence, standby, block и др.).
Пример команды:
sudo pcs resource update nginx migration-threshold=2 failure-timeout=60 on-fail=restart
Для отслеживания статуса ресурсов рекомендуется использовать команду:
sudo pcs status resources
Логирование событий выполняется службой Pacemaker и доступно через системный журнал:
journalctl -u pacemaker