Метрики

Модуль мониторинга. Централизованный сбор метрик (Victoria Metrics)

Модуль мониторинга на основе Victoria Metrics обеспечивает сбор, хранение и агрегацию метрических данных клиентских кластеров и кластера управления. Victoria Metrics разворачивается в кластере управления РОСА Кубис и включает компоненты:

Victoria Metrics Storage ‒ компонент хранения метрик;
Victoria Metrics Insert ‒ омпонент централизованного сбора метрик, получает метрики от "Компонент управления модуля мониторинга" (Victoria Metrics Agent);
Victoria Metrics Select ‒ компонент выполняет входящие запросы, извлекая необходимые данные из Victoria Metrics Storage;
Victoria Metrics Аlert ‒ компонент обеспечивает отправку оповещений, которые соответствуют определенным условиям;
Victoria Metrics Аlert Manager ‒ компонент занимается маршрутизацией событий и отправкой оповещений.

В Комплексе компоненты Victoria Metrics включены в чарты:

shturval-monitoring ‒ Модуль мониторинга централизованного сбора метрик содержит:
- VM Insert;
- VM Select;
- VM Storage.
shturval-metrics-collector ‒ Использует в основе Victoria Metrics Agent. "Компонент управления модуля мониторинга" (Victoria Metrics Agent) содержит:
- VM Аlert;
- VM Аlert Manager.

Из-за больших объемов метрических данных может потребоваться увеличение дискового пространства Victoria Metrics. Подробнее см. п. Увеличение объема хранилища VictoriaMetrics. Рекомендуется перейти на страницу "Анализ состояния в Комплексе" (п. Анализ состояния в Комплексе), чтобы ознакомиться с совместной работой модулей, обеспечивающих мониторинг в Комплексе.

Модуль мониторинга в Комплексе

По умолчанию модуль устанавливается в кластер управления во включенном состоянии. Для просмотра настройки в графическом интерфейсе кластера управления в боковом меню нужно открыть раздел "Сервисы и репозитории" и перейти на страницу "Установленные сервисы", найти "Модуль мониторинга. Компонент централизованного сбора метрик" (shturval-monitoring) и нажать Управлять.

Для корректной работы мониторинга в кластере управления должен быть включен и работать "Компонент мониторинга сбора метрик" (shturval-monitoring-crds).

Модуль графического отображения метрик (Grafana)

Внешний модуль мониторинга (не поставляется в составе Комплекса) обеспечивает сбор и отображение:

системных метрик узлов кластера;
метрик системных компонентов кластера;
метрик контейнеров.

Вся информация отображается на информационных панелях (Dashboards). Для интерактивной визуализации, мониторинга и анализа данных используется платформа Grafana. Модуль графического отображения метрик (Grafana) предоставляет возможность визуализации и анализа данных, используемых для мониторинга.

Для настройки модуля графического отображения метрик в графическом интерфейса кластера нужно в боковом меню открыть раздел "Сервисы и репозитории" и перейти на страницу "Установленные сервисы", нажать Управлять.

Если модуль не отображается, в боковом меню следует открыть раздел "Сервисы и репозитории" и перейти на страницу "Доступные чарты", на вкладке "shturval" найти чарт "shturval-dashboards" и нажать Установить.

Для изменения конфигурации сервиса нужно подготовить ShturvalServicePatch для применения к спецификации (SSC) Модуля графического отображения метрик (shturval-dashboards), например (описание параметров ‒ в таблице 86):

adminPassword: <ваше значение параметра>
adminUser: <ваше значение параметра>
grafana.ini:
auth.generic_oauth:
api_url: <ваше значение параметра>
auth_url: <ваше значение параметра>
client_id: grafana
client_secret: <ваше значение параметра>
token_url: <ваше значение параметра>
server:
root_url: <ваше значение параметра>
ingress:
enabled: true
hosts:
‒ <ваше значение параметра>

Затем необходимо в кластере управления загрузить с помощью импорта манифестов подготовленный ShturvalServicePatch.

После загрузки ShturvalServicePatch потребуется некоторое время для применения изменений.

Интерфейс Grafana

Интерфейс Grafana доступен по префиксу "dashboards" в домене кластера, например dashboards.apps.ip-XX-XX-XX-XX.shturval.link.

Данные для входа генерируются при разворачивании кластера, и их можно посмотреть в Secret shturval-dashboards в неймспейсе monitoring кластера управления:

$ kubectl -n monitoring get secret shturval-dashboards -o go-template='{{ index .data "admin-user" | base64decode }}'
admin
$ kubectl -n monitoring get secret shturval-dashboards -o go-template='{{ index .data "admin-password" | base64decode }}'
admin

Переход в интерфейс Grafana доступен по нажатию на кнопку Статистика на странице "Дашборд" кластера. Кнопка доступна, если установлены и включены сервисы:

в вашем кластере Компонент управления модуля мониторинга (Victoria Metrics Agent) (shturval-metrics-collector);
в кластере управления Модуль графического отображения метрик (Grafana) (shturval-dashboards) и Модуль мониторинга. Централизованный сбор метрик (Victoria Metrics) (shturval-monitoring).

После успешного перехода в интерфейс Grafana нужно перейти в раздел меню "Dashboards", чтобы ознакомиться с перечнем дашбордов. Описание доступных дашбордов в интерфейсе Grafana приведено в п. Доступные дашборды Grafana. При необходимости добавить кастомный дашборд в интерфейс Grafana, рекомендуется воспользоваться соответствующей инструкцией.

По нажатию кнопкой мыши на название дашборда открываются информационные панели с данными, которые изменяются в режиме реального времени.

Примечание ‒ Некоторые информационные блоки снабжены подсказками. Они отображаются при наведении курсора на пиктограмму "i".

С дополнительной информацией можно ознакомиться на официальном сайте.

При переходе из Комплекса к дашбордам Grafana может возникнуть "ошибка 401". Такое поведение связано с особенностью работы Grafana с token. Чтобы получить доступ к дашбордам, следует перезайти повторно в интерфейс Grafana.

Добавление дашборда в Grafana

Кастомный дашборд в интерфейсе Grafana можно создать с помощью редактирования объектов в интерфейсе Комплекса (подробнее о конфигурации сервиса см. в п. Модуль графического отображения метрик (Grafana)).

перейти в неймспейс monitoring кластера управления (рисунок 532);

Рисунок 532 ‒ Неймспейс monitoring

в разделе "Хранилище" перейти на страницу "ConfigMaps" (рисунок 533);

Рисунок 533 ‒ Страница "ConfigMaps"

с помощью кнопки + Добавить ConfigMap создать ConfigMap, например my-dashboard (рисунок 534);

Рисунок 534 ‒ Создание ConfigMap

в секции "Текстовые ключи" добавить текстовый ключ, нажав + (рисунок 535);

Рисунок 535 ‒ Добавление блока "Текстовые ключи"

прописать параметры панелей и название в блоке "Текстовые ключи" (рисунок 536);

Рисунок 536 ‒ Параметры текстового ключа

обязательно указать лейбл grafana_dashboard: "1" (рисунок 537);

Рисунок 537 ‒ Лейбл grafana_dashboard

Пример ConfigMap:

apiVersion: v1
kind: ConfigMap
metadata:
name: my-dashboard # Любое
namespace: monitoring # ! Важно
labels:
grafana_dashboard: "1" # ! Важно
data:
my-dashboard.json: |- # Желательно аналогично названию ConfigMap, чтобы не путаться
{
"annotations": {...},
"editable": true,
"panels": [...],
"title": "My Custom Dashboard",
...
}

подготовить ShturvalServicePatch для применения к спецификации (SSC) Модуля графического отображения метрик (shturval-dashboards), например (описание параметров ‒ в таблице 2):

apiVersion: ops.shturval.tech/v1beta2
kind: ShturvalServicePatch
metadata:
name: <имя ресурса>
spec:
shturvalServiceConfigName: shturval-dashboards
customvalues:
sidecar:
dashboards:
enabled: true
label: grafana_dashboard

в кластере управления загрузить с помощью импорта манифестов подготовленный ShturvalServicePatch; после загрузки ShturvalServicePatch потребуется некоторое время для применения изменений.
чтобы убедиться в применении загруженного ShturvalServicePatch к спецификации:

в кластере из раздела "Сервисы и репозитории" открыть страницу "Установленные сервисы";
найти Модуль графического отображения метрик (shturval-dashboards) и перейти к управлению;
когда ShturvalServicePatch будет применен, на вкладке "Сервис" статус обновится до Patched, а на вкладке "Примененные PatchSSC" в списке отобразится загруженный ShturvalServicePatch.

Перенаправление метрик

Если в кластере включен VM Agent, по умолчанию он собирает метрики системных компонентов и перенаправляет их в кластер Victoria Metrics, размещенный в кластере управления. Можно настроить перенаправление метрик клиентского кластера, кластера управления во внешний Victoria Metrics, развернутый в вашей инфраструктуре.

Для этого необходимо подготовить манифест объекта ShturvalServicePatch (PatchSSC) для применения к спецификации (SSC) "Компонент управления модуля мониторинга" (shturval-metrics-collector) с требуемыми параметрами в customvalues.

Пример ShturvalServicePatch для отключения внутреннего мониторинга и перенаправление метрик во внешний Victoria Metrics:

apiVersion: ops.shturval.tech/v1beta2
kind: ShturvalServicePatch
metadata:
name: <имя ресурса>
spec:
shturvalServiceConfigName: shturval-metrics-collector
customvalues:
external:
vm:
write: # Конфигурация направления метрик во внешний сервис мониторинга
url: <ваше значение параметра>
read:  # Настройки чтения метрик из внешнего сервиса мониторинга
url: <ваше значение параметра>

Описание параметров customvalues ‒ в таблице 88.

Вместо "0", как в примерах, требуется указать TenantID. В данном случае настраивается возможность получения метрик из внешнего сервиса мониторинга для возможности настройки алертинга в кластере Комплекса.

Следует обратить внимание, что в случае настройки перенаправления метрик без возможности получения их из внешнего Victoria Metrics дашборды Grafana не будут работать корректно.

Пример ShturvalServicePatch для направления метрик во внешний Victoria Metrics без отключения внутреннего мониторинга (описание параметров ‒ в таблице 89):

apiVersion: ops.shturval.tech/v1beta2
kind: ShturvalServicePatch
metadata:
name: <имя ресурса>
spec:
shturvalServiceConfigName: shturval-metrics-collector
customvalues:
vmagent:
additionalRemoteWrites:
‒ url: <ваше значение параметра>

Затем необходимо в графическом интерфейсе с помощью импорта манифеста загрузить в кластер подготовленный ShturvalServicePatch, для чего нажать на иконку импорта манифестов, расположенную слева от имени пользователя, загрузить файл с подготовленным манифестом ShturvalServicePatch, переместить манифест в открывшееся окно, выполнить проверку и нажать Загрузить.

После загрузки ShturvalServicePatch потребуется некоторое время для применения изменений.

Чтобы убедиться в применении загруженного ShturvalServicePatch к спецификации, следует:

в кластере из раздела "Сервисы и репозитории" открыть страницу "Установленные сервисы";
найти Компонент управления модуля мониторинга (shturval-metrics-collector) и перейти к управлению;
когда ShturvalServicePatch будет применен, на вкладке "Сервис" статус обновится до Patched, а на вкладке "Примененные PatchSSC" в списке отобразится загруженный ShturvalServicePatch.

Увеличение объема хранилища VictoriaMetrics

Для компонента централизованного сбора метрик модуля мониторинга (shturval-monitoring) может потребоваться увеличение объема дискового пространства. При необходимости можно изменить объем диска из графического интерфейса Комплекса с помощью ресурса Persistent Volume Claim (PVC).

Все действия по увеличению дискового пространства для модулей выполняются в кластере управления.

Для увеличения дискового пространства компонента централизованного сбора метрик модуля мониторинга shturval-monitoring нужно выполнить следующие действия с помощью PVC:

перейти в неймспейс victoria-metrics кластера управления (рисунок 538);

Рисунок 538 ‒ Неймспейс victoria-metrics

открыть страницу "PersistentVolumeClaims" раздела "Хранилище"; выбрать PVC, который смонтирован в Pod модуля, требующего увеличения дискового пространства; обновить данные поля "Запрашиваемый объем хранилища" и сохранить изменения (рисунок 539).

Рисунок 539 ‒ Страница "PersistentVolumeClaims"

Следует обратить внимание, что уменьшить объем дискового пространства в PVC нельзя.

удалить Pod, в котором смонтирован измененный PVC, для чего перейти в неймспейс victoria-metrics на страницу "Pods" в разделе "Нагрузки"; выполнить удаление Pod, в котором смонтирован измененный PVC (рисунок 540).

Рисунок 540 ‒ Удаление Pod

Новый Pod будет запущен с измененным объемом дискового пространства. Потери данных до изменения объема дискового пространства модуля не произойдет.

Важно ‒ После изменении PVC рекомендуется отключить модуль и включить заново. Это позволит использовать настройки объема диска в случае, если произойдет перезагрузка узлов.

Компонент централизованного сбора метрик модуля мониторинга является критически важным, перед отключением необходимо изменить конфигурацию:

перейти в раздел "Сервисы и репозитории", далее на страницу "Установленные системные сервисы", найти Модуль мониторинга. Компонент централизованного хранения метрик (shturval-monitoring) и отключить его, выбрав режим "Выкл" (рисунок 541);

Рисунок 541 ‒ Изменение конфигурации Компонента централизованного сбора метрик модуля мониторинга

перейти в нагрузки неймспейса victoria-metrics модуля и открыть страницу "StatefulSets" в разделе "Нагрузки"; убедиться, что StatefulSet с именем shturval-monitoring-vmstorage модуля отсутствует (рисунок 542). При необходимости дождитесь удаления StatefulSet.

Рисунок 542 ‒ Страница "StatefulSets"

когда StatefulSet будет удален, подготовить ShturvalServicePatch для применения к спецификации (SSC) Модуль мониторинга. Компонент централизованного хранения метрик (shturval-monitoring), где указать объем дискового пространства, используя параметр конфигурации size (рисунок 10):

Пример customvalues (описание параметров ‒ в таблице 90):

apiVersion: ops.shturval.tech/v1beta2
kind: ShturvalServicePatch
metadata:
name: <имя ресурса>
spec:
shturvalServiceConfigName: shturval-monitoring
customvalues:
vmstorage:
persistentVolume:
storageClass: <ваше значение параметра>
size: <ваше значение параметра>

перейти в раздел "Сервисы и репозитории" на страницу "Установленные системные сервисы", найти Модуль мониторинга. Компонент централизованного хранения метрик (shturval-monitoring), включить модуль, выбрав автоматический режим управления "Авто", и сохранить изменения.

Компонент управления модуля мониторинга (Victoria Metrics Agent)

Компонент управления модуля мониторинга (Victoria Metrics Agent) (shturval-metrics-collector) собирает метрики сервисов, запущенных в кластере.

Интеграция с Prometheus Operator

Переход от Prometheus к VM Agent осуществляется без дополнительных настроек. Victoria Metrics Operator поддерживает импорт CRD (Custom Resource Definitions) от Prometheus Operator:

PodMonitor;
ServiceMonitor;
Probe;
AlertmanagerConfig.

Если в кластере созданы кастомные ресурсы Prometheus Operator, Victoria Metrics Operator применит их конфигурацию.

Компонент модуля мониторинга в Комплексе

По умолчанию компонент модуля устанавливается в клиентские кластеры и кластер управления во включенном состоянии. Для просмотра настройки в графическом интерфейсе кластера нужно в боковом меню открыть раздел "Сервисы и репозитории" и перейти на страницу "Установленные сервисы", найти "Модуль мониторинга. Компонент управления модуля мониторинга" и нажать Управлять.

Если в кластере компонент модуля отсутствует, в боковом меню следует открыть раздел "Сервисы и репозитории" и перейти на страницу "Доступные чарты". Далее на вкладке "shturval" выбрать чарт shturval-metrics-collector и нажать Установить.

Затем нужно выбрать необходимую версию чарта, а также неймспейс victoria-metrics. После выбора версии чарта в правой части экрана отобразятся "Доступные параметры конфигурации для сервиса (values)". Следует прописать в блоке "Спецификация сервиса" необходимые параметры в качестве customvalues.

Важно ‒ Для корректной работы мониторинга в клиентском кластере должны работать:

в клиентском кластере ‒ "Модуль мониторинга. CRD Компонента управления CR модуля мониторинга" (shturval-metrics-collector-crds).
в кластере управления ‒ "Модуль мониторинга. Компонент управления модуля мониторинга" (shturval-metrics-collector) и "Модуль мониторинга. CRD Компонента управления CR модуля мониторинга" (shturval-metrics-collector-crds).

Если в кластере включен и работает "Модуль мониторинга. Компонент управления модуля мониторинга", VM Agent собирает и направляет метрики в кластер управления. Алертинг в клиентских кластерах работает по настроенным правилам кластера управления. При необходимости локального алертинга в клиентском кластере требуется выполнить шаги в соответствии с Инструкцией "Как настроить алертинг в кластере".

Конфигурация VM Agent

Базовая настройка VM Agent:

определяет задания сбора (scrape jobs) с различной периодичностью (scrapeInterval), таймаутами (scrapetimeout).

Пример customvalues (описание параметров ‒ в таблице 91):

vmagent:
enabled: true
spec:
scrapeInterval: <ваше значение параметра>
vmScrape:
kind: VMNodeScrape
spec:
scrapeTimeout: <ваше значение параметра>

использует гибкую настройку метрик и изменения лейблов, например отбора нужных namespace или исключения лишних target’ов. Базовый мониторинг настроен с помощью лейблов. При необходимости можно присвоить сервису лейбл, чтобы он попал в список объектов для мониторинга.

Пример сustomvalues:

vmagent:
spec:
selectAllByDefault: false
nodeScrapeNamespaceSelector: # Селектор для неймспейсов, из которых будут собираться метрики
matchLabels:
shturval.tech/system-namespace: ''
nodeScrapeSelector: {} # Селектор выбора узлов кластера, с которых будут собираться метрики
podScrapeNamespaceSelector: # Селектор выбора подов, из которых будут собираться метрики
matchLabels:
shturval.tech/system-namespace: ''
podScrapeSelector: {} # Селектор выбора подов, из которых будут собираться метрики
probeNamespaceSelector:
matchLabels:
shturval.tech/system-namespace: ''
probeSelector: {}
serviceScrapeNamespaceSelector: # Селектор для сервисов, из которых будут собираться метрики
matchLabels:
shturval.tech/system-namespace: ''
serviceScrapeSelector: {} # Селектор для сервисов, из которых будут собираться метрики
staticScrapeNamespaceSelector: # Селектор для статических объектов, из которых будут собираться метрики
matchLabels:
shturval.tech/system-namespace: ''
staticScrapeSelector: {} ## Селектор для статических объектов, из которых будут собираться метрики

задает вычислительные ресурсы (CPU и RAM) для VM Agent, Victoria Metrics Operator и вспомогательных сервисов (node-exporter, kube-state-metrics) (resources.requests и resources.limits).

Пример сustomvalues с параметрами вычислительных ресурсов для VM Agent (описание параметров ‒ в таблице 92):

vmagent:
enabled: true
resources:
limits:
cpu: <ваше значение параметра>
memory: <ваше значение параметра>
requests:
cpu: <ваше значение параметра>
memory: <ваше значение параметра>

Доступные дашборды Grafana

Важно ‒ Если необходимо добавить кастомный дашборд в интерфейс Grafana, следует воспользоваться инструкцией в п.Добавление дашборда в Grafana.

Services

Alertmanager/Общая информация

Данный дашборд предназначен для мониторинга состояния Alertmanager, обеспечивая визуализацию данных о полученных и отправленных уведомлениях. Основные возможности дашборда включают отображение общего количества уведомлений, интенсивности их получения и отправки, а также метрики задержки обработки уведомлений. Пользователи могут фильтровать данные по неймспейсу, сервисам и интеграциям для глубокого анализа (рисунок 543).

Рисунок 543 ‒ Alertmanager/Общая информация

Структура дашборда:

Оповещения:
- Оповещения ‒ Общее количество оповещений, полученных Alertmanager.
- Интенсивность получения оповещений ‒ Метрики, показывающие количество успешно полученных и недействительных уведомлений.
Уведомления:
- $integration: Интенсивность отправки уведомлений ‒ Интенсивность отправки уведомлений, включая успешные и неудачные отправки, для выбранной интеграции.
- $integration: Длительность уведомлений ‒ Метрики задержки отправки уведомлений, отображающие 99-й процентиль, медиану и среднее время отправки уведомлений.

Настраиваемые параметры:

datasource ‒ Обеспечивает выбор источника данных для отображения на дашборде.
namespace ‒ позволяет фильтровать метрики по неймспейсу, отображая только данные для выбранного неймспейса.
service ‒ позволяет пользователю выбрать конкретный сервис для анализа метрик уведомлений.

Certificates Expiration

Данный дашборд предназначен для мониторинга состояния сертификатов, предоставляя обширную информацию о сроках их действия. Включает в себя данные по Kubernetes Secrets, сертификатам на узлах, а также на любых серверах. Основные возможности дашборда позволяют пользователю быстро оценить количество сертификатов, выявить просроченные и те, срок действия которых истекает в ближайшее время, а также проанализировать ошибки загрузчиков сертификатов (рисунок 544).

Рисунок 544 ‒ Certificates Expiration

Структура дашборда:

Overview:
- Total Certificates ‒ отображает общее количество сертификатов, подсчитываемое на основе метрики x509_cert_not_after.
- Expired ‒ показывает количество сертификатов, срок действия которых истек.
- Expiring within $critical_threshold days ‒ отображает число сертификатов, срок действия которых истекает в течение критического порога, заданного пользователем.
- Expiring within $warning_threshold days ‒ показывает число сертификатов, срок действия которых истекает в пределах порога предупреждения.
- Media ‒ Круговая диаграмма, показывающая распределение сертификатов по типам ‒ Kubernetes Secret, Kubeconfig Embedded и Certificate File.
- Exporters ‒ показывает общее количество ошибок загрузчиков сертификатов.
- Exporter Errors ‒ отображает сумму ошибок загрузчиков сертификатов.
Expiration:
- Kubernetes Secrets (time left < $list_threshold days) ‒ таблица, отображающая Kubernetes Secrets, срок действия которых истекает меньше чем за заданное количество дней. Следует обратить внимание, что для окраски столбца "Time Left" необходимо вручную настраивать пороги в параметрах переопределения этого виджета.
- Host Files (time left < $list_threshold days) ‒ таблица, аналогичная предыдущей, но для сертификатов файлохранителей.
Charts:
- Top Issuers ‒ таблица, показывающая 10 наиболее распространенных удостоверяющих компаний (issuer) на основании количества сертификатов.
- Top Namespaces (Kubernetes Secrets) ‒ таблица, отображающая 10 неймспейсов, в которых находятся Kubernetes Secrets, с наибольшим количеством сертификатов.
- Top Instances (Host Paths) ‒ таблица, показывающая 10 экземпляров (instance) с наибольшим количеством сертификатов файлового хранилища.
- Kubernetes Secrets: Shortest Validity Period ‒ таблица, отображающая 10 Kubernetes Secrets с наименьшим оставшимся сроком действия.
- Host Paths: Shortest Validity Period ‒ таблица, показывающая 10 файловых пути с наименьшим оставшимся сроком действия.
- Kubernetes Secrets: Longest Validity Period ‒ таблица, отображающая 10 Kubernetes Secrets с наибольшим сроком действия.
- Host Paths: Longest Validity Period ‒ таблица, показывающая 10 файловых пути с наибольшим сроком действия.
Exporters:
- Reporting Exporters ‒ график, показывающий количество ошибок загрузчиков.
- Exporters with Errors ‒ график, отображающий количество загрузчиков с ошибками.
- Error Rate ‒ график, показывающий частоту ошибок в загрузчиках за последние 15 минут.
- Cumulative Errors ‒ график, показывающий общее количество ошибок на сегодняшний день.
- Top Exporters by Error Rate ‒ таблица с 10 загрузчиками с наивысшим уровнем ошибок.
- Top Exporters by Cumulative Errors ‒ таблица, показывающая 10 загрузчиков с наибольшим числом накопленных ошибок.

Настраиваемые параметры:

Источник данных ‒ для дашборда, позволяющий выбрать источник данных Prometheus.
Critical Threshold (days) ‒ критический порог (в днях), определяющий, когда сертификаты должны быть отмечены, как требующие внимания.
Warning Tthreshold (days) ‒ порог предупреждения (в днях), устанавливающий временные рамки для раннего оповещения о сертификатах.
List expiring in less than (dais) ‒ параметр, определяющий список сертификатов, срок действия которых истекает менее чем через заданное количество дней.

Cilium Agent

Данный дашборд предоставляет возможность отслеживать различные показатели производительности, такие как использование ресурсов, задержки API, управление политикам и сетевую активность в кластере Kubernetes. Набор панелей позволяет администраторам приложения быстро идентифицировать проблемы и оптимизировать работу сетевых компонентов приложения (рисунок 545).

Рисунок 545 ‒ Cilium Agent

Структура дашборда:

Errors & Warnings ‒ временной график, показывающий количество ошибок и предупреждений, возникших в кластере Cilium, с разбивкой по уровням.
CPU Usage per node ‒ временной график, показывающий использование CPU на каждом узле, включая минимальные, средние и максимальные значения.
Generic:
- Virtual Memory Bytes ‒ временной график, отображающий виртуальной памяти, включая минимальные, средние и максимальные значения для каждого пода.
- Resident memory status ‒ временной график, показывающий статус резидентной памяти с минимальными, средними и максимальными значениями.
- Open file descriptors ‒ временной график, показывающий использование открытых дескрипторов файлов в кластере с минимальными, средними и максимальными значениями.
- System-wide BPF memory usage ‒ временной график, показывающий использование памяти BPF в системе, включая минимальные, средние и максимальные значения.
- BPF map pressure ‒ временной график, показывающий процент заполнения карт BPF, помеченных по имени карты.
API:
- API call latency (average node) ‒ временной график, показывающий среднее время ожидания вызовов API по каждому узлу.
- API call latency (max node) ‒ временной график, показывающий максимальное время ожидания вызовов API по каждому узлу.
- # API calls (average node) ‒ временной график, показывающий среднее количество вызовов API по каждому узлу.
- # API calls (max node) ‒ временной график, показывающий максимальное количество вызовов API по каждому узлу.
- API return codes (average node) ‒ временной график, показывающий среднее количество кодов возврата вызовов API по каждому узлу.
- API return codes (sum all nodes) ‒ временной график, показывающий суммарное количество кодов возврата вызовов API по всем узлам.
Cilium:
- BPF (функционал не входит в поставку из "коробки"):
  - # system calls (average node) ‒ отображает среднее количество системных вызовов по каждому узлу.
  - # system calls (max node) ‒ отображает максимальное количество системных вызовов по каждому узлу.
  - system call latency (avg node) ‒ отображает среднюю задержку системных вызовов по каждому узлу.
  - system call latency (max node) ‒ отображает максимальную задержку системных вызовов по каждому узлу.
  - map ops (average node) ‒ временной график, показывающий средние операции с картами BPF по каждому узлу.
  - map ops (max node) ‒ временной график, показывающий максимальные операции с картами BPF по каждому узлу.
  - map ops (sum failures) ‒ временной график, показывающий суммарное количество операций с картами BPF, завершившихся неудачно.
- Kvstore (функционал не входит в поставку из "коробки"):
  - # operations (sum all nodes) ‒ отображает суммарное количество операций с хранилищем по всем узлам.
  - # operations (max node) ‒ отображает максимальное количество операций с хранилищем по каждому узлу.
  - latency (average node) ‒ отображает среднюю задержку операций с хранилищем по каждому узлу.
  - latency (max node) ‒ отображает максимальную задержку операций с хранилищем по каждому узлу.
  - Events received (average node) ‒ отображает среднее количество полученных событий по каждому узлу.
- Cilium network information:
  - Forwarded Packets ‒ временной график, показывающий количество пересланных пакетов по направлениям.
  - Forwarded Traffic ‒ временной график, показывающий объем пересланного трафика по направлениям.
  - IPv4 Conntrack TCP ‒ временной график, показывающий статистику TCP-соединений для IPv4.
  - IPv6 Conntrack TCP ‒ временной график, показывающий статистику TCP-соединений для IPv6.
  - IPv4 Conntrack Non-TCP ‒ временной график, показывающий статистику не TCP-соединений для IPv4.
  - IPv6 Conntrack Non-TCP ‒ временной график, показывающий статистику не TCP-соединений для IPv6.
  - Allocated Addresses ‒ временной график, отображающий количество выделенных IP-адресов.
  - Datapath Conntrack Dump Resets ‒ временной график, показывающий статистику сбросов похищения контракта.
  - Service Updates ‒ временной график, показывающий частоту обновлений сервисов со средними значениями по действиям.
  - Connectivity Health ‒ временной график, показывающий статус доступности узлов и конечных точек работоспособности.
  - Dropped Egress Packets ‒ временной график, показывающий количество сброшенных пакетов маршрутизации.
  - Node Events ‒ временной график, показывающий количество событий на узлах со средними значениями по типам событий.
  - Dropped Egress Traffic ‒ временной график, показывающий объем сброшенного исходящего трафика.
  - Nodes ‒ временной график, показывающий количество узлов в кластере с минимальными, средними и максимальными значениями.
- Policy (функционал не входит в поставку из "коробки"):
  - L7 forwarded request ‒ отображает количество пересланных, полученных и отклоненных запросов на уровне L7.
  - Cilium drops Ingress ‒ временной график, показывающий количество сброшенных входящих пакетов с разбивкой по причинам.
- Endpoints:
  - Endpoint regeneration time (90th percentile) ‒ временной график, показывающий время регенерации конечных точек (90-й процентиль).
  - Endpoint regeneration time (99th percentile) ‒ временной график, показывающий время регенерации конечных точек (99-й процентиль).
  - Endpoint regenerations ‒ временной график, показывающий общее количество регенераций конечных точек с разбивкой по итоговому результату.
  - Cilium endpoint state ‒ временной график, показывающий статус конечных точек в кластере с разбивкой по состояниям.
- Controllers:
  - Controllers ‒ временной график, показывающий выполнение контроллеров и число возникающих ошибок.
  - Controller Durations ‒ временной график, показывающий среднюю продолжительность выполнения контроллеров с разбивкой по статусам.
- Kubernetes integration:
  - apiserver latency (average node) ‒ временной график, показывающий среднюю задержку API сервера для каждого узла.
  - apiserver latency (max node) ‒ временной график, показывающий максимальную задержку API сервера для каждого узла.
  - apiserver #calls (sum all nodes) ‒ временной график, показывающий общее количество вызовов API сервера для всех узлов.
  - apiserver calls (sum all nodes) ‒ временной график, показывающий общее количество вызовов API сервера по всем узлам.
  - Valid, Unnecessary K8s Events Received ‒ временной график, показывающий количество валидных, но ненужных событий Kubernetes.
  - Invalid, Unnecessary K8s Events Received ‒ временной график, показывающий количество недопустимых и ненужных событий Kubernetes.
  - Valid, Necessary K8s Events Received ‒ временной график, показывающий количество валидных и необходимых событий Kubernetes.
  - Invalid, Necessary K8s Events Received ‒ временной график, показывающий количество недопустимых, но необходимых событий Kubernetes.
  - CiliumNetworkPolicy Events ‒ временной график, показывающий количество событий, связанных с политиками CiliumNetworkPolicy.
  - NetworkPolicy Events ‒ временной график, показывающий количество событий, связанных с политиками NetworkPolicy.
  - Pod Events ‒ временной график, показывающий события, связанные с подами.
  - Node Events ‒ временной график, показывающий события, связанные с узлами.
  - Service Events ‒ временной график, показывающий события, связанные с сервисами.
  - Endpoints Events ‒ временной график, показывающий события, связанные с конечными точками.
  - Namespace Events ‒ временной график, показывающий события, связанные с неймспейсами.

Настраиваемые параметры:

datasource ‒ позволяет выбрать используемый источник данных, основанный.
pod ‒ позволяет выбирать отдельные поды для мониторинга на дашборде.

Cilium Operator

Данный дашборд предназначен для мониторинга метрик оператора Cilium версии 1.12, который использует наблюдение за сетевыми взаимодействиями, управлением IP-адресами и производительностью. Он предоставляет информацию о таких метриках, как использование CPU, статус резидентной памяти, взаимодействия с API EC2 и создание интерфейсов, что позволяет администратору отслеживать работоспособность и производительность системы в реальном времени (рисунок 546).

Рисунок 546 ‒ Cilium Operator

Структура дашборда:

CPU Usage per node ‒ временной график, показывающий использование CPU для каждого узла, представленное в процентах, и включает минимальные, средние и максимальные значения метрик.
Resident memory status ‒ временной график, показывающий статус резидентной памяти для оператора, включая средние, максимальные и минимальные значения в байтах.
IPAM (функционал не входит в поставку из "коробки"):
- IP Addresses ‒ временной график, показывающий среднее количество IP-адресов по типу, обеспечивая информацию о распределении адресов.
- EC2 API Interactions ‒ визуализирует взаимодействия с EC2 API, отображая время отклика для различных операций и кодов ответов.
- Number of nodes ‒ показывает текущее количество узлов, управляемых оператором, с метриками по категориям.
- Interfaces with addresses available ‒ отображает количество интерфейсов, к которым доступны адреса, что помогает в управлении IP-адресами.
- Metadata Resync Operations ‒ отображает частоту операций синхронизации метаданных, подсчитывая количество операций за минуту.
- EC2 client side rate limiting ‒ показывает показатели ограничения на стороне клиента EC2, отображая среднее время реакции на операции.
- Interface Creation ‒ визуализирует операции создания интерфейсов, отображая среднее количество операций по статусу и идентификатору подсети.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для метрик.

Kyverno

Дашборд Kyverno предназначен для мониторинга политики управления Kubernetes и обеспечивает визуализацию ключевых метрик, связанных с выполнением политик, их состоянием и эффективность работы. Дашборд предоставляет возможность отслеживать актуальные результаты выполнения политик, уровень успешности проверок, а также использование ресурсов (ЦПУ и памяти) как по запросам, так и по лимитам. Данный дашборд позволяет быстро идентифицировать проблемы с политиками и оптимизировать ресурсы кластера (рисунок 547).

Рисунок 547 ‒ Kyverno

Структура дашборда:

Latest Status:
- Rule Execution Success Rate ‒ отображает процент успешного выполнения правил политик.
- Cluster Policies ‒ показывает количество активных кластерных политик.
- Policies ‒ показывает количество активных политик с неймспейсами.
- Background Scans Success Rate ‒ отображает уровень успешности фоновых проверок политик.
- Validate Rules ‒ отображает информацию о количестве правил верификации.
- Mutate Rules ‒ отображает информацию о количестве правил изменения.
- Generate Rules ‒ отображает информацию о количестве правил генерации.
- CPU Utilisation (from requests) ‒ отображаетиспользование ЦПУ по запросам политик, в пределах заданного неймспейса.
- CPU Utilisation (from limits) ‒ отображает использование ЦПУ по лимитам политик, в пределах заданного неймспейса.
- Memory Utilisation (from requests) ‒ отображает использование памяти по запросам политик в пределах заданного неймспейса.
- Memory Utilisation (from limits) ‒ отображает использование памяти по лимитам политик в пределах заданного неймспейса.
- CPU Usage ‒ временной график, показывающий использование ЦПУ по подам, с учетом запросов и лимитов.
- Memory Usage (w/o cache) ‒ временной график, показывающий использование памяти по подам без кеша.
Policy-Rule Results:
- Admission Review Results (per-rule) ‒ временной график, показывающий результаты проверки запросов на основе каждого правила.
- Background Scan Results (per-rule) ‒ временной график, показывающий результаты фоновых проверок на основе каждого правила.
- Policy Failures ‒ отображает количество сбоев политик, сгруппированных по типу.
- Admission Review Results (per-policy) ‒ временной график, показывающий результаты проверки запросов на основе каждой политики.
- Background Scan Results (per-policy) ‒ временной график, показывающий рРезультаты фоновых проверок на основе каждой политики.
- Cluster Policies and Namespaces w/Failed ‒ отображает информацию о кластерных политиках и неймспейсах, где произошли сбои.
Policy-Rule Info:
- Active Policies (by policy type) ‒ временной график, отображающий количество активных политик, сгруппированных по типу.
- Active Policies (by policy validation action) ‒ временной график, показывающий количество активных политик, сгруппированных по действию проверки.
- Active Policies running in background mode ‒ временной график, показывающий количество активных политик, работающих в фоновом режиме.
- Active Namespaced Policies (by namespaces) ‒ временной график, показывающий количество активных пространственно-зависимых политик, сгруппированных по неймспейсу.
- Active Rules (by rule type) ‒ временной график, показывающий количество активных правил, сгруппированных по типу.
Policy-Rule Execution Latency:
- Average Rule Execution Latency ‒ временной график, показывающий среднюю задержку выполнения правил.
- Average Policy Execution Latency ‒ временной график, показывающий среднюю задержку выполнения политик.
- Overall Average Rule Execution Latency ‒ отображает общее среднее значение задержки выполнения правил.
- Overall Average Policy Execution Latency ‒ отображает общее среднее значение задержки выполнения политик.
Admission Review Latency:
- Avg: Admission Review Duration (by operation) ‒ временной график, показывающий среднюю продолжительность проверки admission по операциям.
- Avg: Admission Review Duration (by resource kind) ‒ временной график, показывающий среднюю продолжительность проверки admission по видам ресурсов.
- Rate: Incoming Admission Requests (last 5m) ‒ отображает скорость входящих запросов на admission за последние 5 минут.
- Avg: Overall Admission Review Duration ‒ отображает среднюю продолжительность всех проверок admission.
Policy Changes:
- Policy Changes (by change type) ‒ временной график, показывающий изменения политик, сгруппированные по типу изменений.
- Policy Changes (by policy type) ‒ временной график, показывающий изменения политик, сгруппированные по типу политики.
- Total Policy Changes ‒ отображает общее количество изменений политик.
- Rate: Policy Changes Happening (last 5m) ‒ отображает скорость изменений политик за последние 5 минут.
Admission Requests:
- Admission Requests (by operation) ‒ временной график, показывающий оличество запросов на admission по операциям.
- Admission Requests (by resource kind) ‒ временной график, показывающий количество запросов на admission по видам ресурсов.
- Total Admission Requests ‒ отображает общее количество запросов на admission.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для метрик, поддерживает выбор из нескольких источников.
namespace ‒ позволяет фильтровать метрики по определенному неймспейсу в Kubernetes, используя значения метки kube_namespace_status_phase.

Go Runtime Exporter

Данный дашборд предназначен для мониторинга параметров производительности приложений, написанных на языке Go. Он позволяет отслеживать использование памяти, количество объектов в памяти и характеристики сборщика мусора в реальном времени. Дашборд предлагает предварительно сконфигурированные графики и правила оповещения для быстрого анализа и диагностики работы приложений, что делает его полезным инструментом для разработчиков и администраторов (рисунок 548).

Рисунок 548 ‒ Go Runtime Exporter

Структура дашборда:

Total Reserved Memory ‒ временной график, показывающий среднее значение общего объема зарезервированной памяти во всех неймспейсах приложения.
Stack Memory Use ‒ временной график, показывающий среднее значение использования стековой памяти во всех неймспейсах приложения.
Other Memory Reservations ‒ временной график, показывающий среднее значение резервирования памяти для других нужд, не включая стек и кучу, во всех неймспейсах приложения.
Heap Memory ‒ временной график, показывающий средние значения, связанные с памятью кучи, включая зарезервированную, используемую и выделенную память.
Allocation Rate, Bytes ‒ временной график, показывающий среднюю скорость выделения памяти в байтах в секунду во всех неймспейсах приложения.
Heap Object Allocation Rate ‒ временной график, показывающий среднюю скорость выделения объектов в куче во всех неймспейсах приложения.
Number of Live Objects ‒ временной график, показывающий среднее количество живых объектов в памяти во всех неймспейсах приложения.
Goroutines ‒ временной график, показывающий среднее количество горутин во всех неймспейсах приложения.
GC min & max duration ‒ временной график, показывающий средние минимальную и максимальную длительность сборки мусора (GC).
Next GC, Bytes ‒ временной график, показывающий среднее количество байт, используемых до следующей сборки мусора.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для использования в дашборде.
namespace ‒ позволяет выбрать пространство имен Kubernetes, данные которого будут отображены. Включает опцию выбора всех пространств имен.
job ‒ позволяет выбирать конкретную задачу, по которой будут отображаться метрики, фильтруя результаты согласно выбранной задаче и неймспейсу.

Vector Cluster Monitoring

Дашборд предназначен для мониторинга кластеров Kubernetes с использованием Vector.dev и предоставляет информацию о загрузке процессора, использовании памяти, сетевой активности и состоянии служб. Дашборд помогает отслеживать различные метрики и показатели производительности как на уровне управления (Control Plane), так и на уровне приложений, работающих в контейнерах (рисунок 549).

Рисунок 549 ‒ Vector Cluster Monitoring

Структура дашборда:

Overview:
- Control Plane Availability ‒ отображает доступность управляющей плоскости кластера, измеряясь по количеству готовых контейнеров в пространстве имен "kube-system".
- Vector pod count per Node ‒ отображает количество подов Vector на каждом узле в кластере.
- Node CPU Usage(%) ‒ отображает отношение использованных ресурсов процессора на узлах.
- Node Memory Usage(%) ‒ отображает процент использования памяти на узлах.
- Vector Namespace Pods ‒ отображает количество подов Vector в выбранном пространстве имен.
Vector Internal Metrics (Source / Transform / Sink):
- Input events count (events/sec) ‒ временной график, показывающий количество входящих событий в секунду для компонентов типа "source".
- Input events bytes rate (bytes/sec) ‒ временной график, показывающий скорость обработки байтов входящих событий.
- Transform events count (events/sec) ‒ круговая диаграмма, показывающая количество событий, обрабатываемых компонентами типа "transform".
- Transform events bytes rate (bytes/sec) ‒ временной график, показывающий скорость обработки байтов для событий, которые были преобразованы.
- Transform utilization ‒ временной график, показывающий коэффициент загрузки компонентов типа "transform".
- Output events bytes count (events/sec) ‒ временной график, показывающий общее количество байтов, обработанных компонентами типа "sink".
- Output events count (events/sec) ‒ круговая диаграмма, показывающая количество выходящих событий в секунду.
- Output events bytes rate (bytes/sec) ‒ временной график, показывающий скорость обработки байтов выходящих событий.
- Output utilization ‒ временной график, показывающий коэффициент загрузки для компонентов типа "sink".
Quick CPU / Mem / Disk:
- CPU Busy ‒ отображает загрузку всех ядер процессора.
- Sys Load (5m avg) ‒ отображает среднюю загрузку за последние 5 минут.
- Sys Load (15m avg) ‒ отображает среднюю загрузку за последние 15 минут.
- RAM Used ‒ отображает используемую память.
- SWAP Used ‒ отображает использование swap-памяти.
- Root FS Used ‒ отображает использование корневой файловой системы.
- CPU Cores ‒ отображает общее количество ядер CPU.
- RAM Total ‒ отображает общее количество оперативной памяти.
- SWAP Total ‒ отображает общее количество swap-памяти.
- RootFS Total ‒ отображает общее количество файловой системы корневого раздела.
- Uptime ‒ отображает время работы системы.
Basic CPU / Mem / Net / Disk:
- CPU Basic ‒ временной график, показывающий базовую информацию о загрузке CPU, включая времени в разных режимах работы.
- Memory Basic ‒ временной график, показывающий общее и используемое количество оперативной памяти.
- Network Traffic Basic ‒ временной график, показывающий информацию о сетевом трафике по каждому интерфейсу.
- Disk Space Used Basic ‒ временной график, показывающий процент использования дискового пространства для всех примонтированных файловых систем.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для отображения информации.
node ‒ позволяет пользователю выбрать конкретный узел для мониторинга.
job ‒ позволяет выбрать конкретную задачу, по которой будут отображаться метрики, фильтруя результаты согласно выбранной задаче и неймспейсу.
namespace ‒ позволяет выбрать пространство имен Kubernetes, данные которого будут отображены. Включает опцию выбора всех пространств имен.

Обзор Grafana

Данный дашборд предназначен для мониторинга и анализа данных, связанных с производительностью и работоспособностью системы Grafana. Он позволяет отслеживать метрики, такие как количество предупреждений, общее количество дашбордов, информацию о сборках, запросах к Grafana и их продолжительности. Этот дашборд помогает в быстрой идентификации проблем в работе приложения и оптимизации производительности (рисунок 550).

Рисунок 550 ‒ Обзор Grafana

Структура дашборда:

Предупреждения ‒ отображает суммарное количество всех предупреждений в системе в текущий момент.
Дашборды ‒ отображает суммарное количество дашбордов, доступных в системе.
Информация о сборках ‒ отображает сводную информацию о сборках Grafana, включая ключевые метрики.
Запросов в секунду ‒ временной график, показывающий суммарное количество запросов к Grafana в секунду, что помогает отслеживать нагрузку на систему в реальном времени.
Продолжительность запросов ‒ временной график, показывающий процентильные значения (99-й и 50-й) продолжительности HTTP-запросов к Grafana, а также среднее время выполнения запросов.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для отображения информации.
job ‒ позволяет выбрать конкретную задачу, по которой будут отображаться метрики, фильтруя результаты согласно выбранной задаче и неймспейсу.
pod ‒ позволяет выбрать под для более точного мониторинга и анализа данных.

Trivy Operator ‒ Vulnerabilities

Дашборд предназначен для мониторинга уязвимостей в Kubernetes-кластерах с помощью Trivy Operator от Aqua Security. Он реализует современные функции Grafana, предоставляя пользователям централизованное представление информации о состоянии безопасности образов, конфигураций и RBAC-оценок. Дашборд помогает в выявлении уязвимостей различной степени серьезности (Critical, High, Medium, Low и Unknown) и представляет информацию в удобной для анализа форме (рисунок 551).

Рисунок 551 ‒ Trivy Operator ‒ Vulnerabilities

Структура дашборда:

Vulnerabilities:
- CRITICAL ‒ отображает общее количество уязвимостей с уровнем серьезности "Critical" в выбранных пространстве имен и кластере.
- HIGH ‒ отображает общее количество уязвимостей с уровнем серьезности "High" в выбранных пространстве имен и кластере.
- MEDIUM ‒ отображает общее количество уязвимостей с уровнем серьезности "Medium" в выбранных пространстве имен и кластере.
- LOW ‒ отображает общее количество уязвимостей с уровнем серьезности "Low" в выбранных пространстве имен и кластере.
- UNKNOWN ‒ отображает общее количество уязвимостей с уровнем серьезности "Unknown" в выбранных пространстве имен и кластере.
- TOTAL ‒ отображает общее количество всех уязвимостей в выбранных пространстве имен и кластере.
- Total vulnerabilities by namespaces ‒ временной график, показывающий общее количество уязвимостей в образах по пространствам имен.
- Total vulnerabilities by severity in selected namespace(s) ‒ временной график, показывающий распределение уязвимостей по степеням серьезности в выбранных пространствах имен.
Vulnerability Details:
- Vulnerability count per image and severity in $namespace namespace(s) ‒ таблица, показывающая количество уязвимостей по изображениям и степеням серьезности в выбранных пространствах имен.
- Detailed CVE vulnerabilities in $namespace namespace(s) ‒ таблица, представляющая детальную информацию о CVE-вызванных уязвимостях в выбранных пространствах имен (Отключен в операторе).
Config Audit Reports:
- CRITICAL ‒ отображает количество критических аудитов конфигураций в выбранных пространстве имен и кластере.
- HIGH ‒ отображает количество высоких аудитов конфигураций в выбранных пространстве имен и кластере.
- MEDIUM ‒ отображает количество средних аудитов конфигураций в выбранных пространстве имен и кластере.
- LOW ‒ отображает количество низких аудитов конфигураций в выбранных пространстве имен и кластере.
- TOTAL ‒ отображает общее количество аудитов конфигураций в выбранных пространстве имен и кластере.
- Total config audit report by namespaces ‒ временной график, показывающий общее количество аудитов конфигураций по пространствам имен.
- Total config audit report by severity ‒ временной график, показывающий распределение аудитов конфигураций по степеням серьезности.
RBAC Assessments (не используется):
- CRITICAL ‒ отображает количество критических оценок RBAC в выбранных пространстве имен и кластере.
- HIGH ‒ отображает количество высоких оценок RBAC в выбранных пространстве имен и кластере.
- MEDIUM ‒ отображает количество средних оценок RBAC в выбранных пространстве имен и кластере.
- LOW ‒ отображает количество низких оценок RBAC в выбранных пространстве имен и кластере.
- TOTAL ‒ отображает общее количество оценок RBAC в выбранных пространстве имен и кластере.
- Total RBAC Assessments by namespaces ‒ временной график, показывающий общее количество оценок RBAC по пространствам имен.
- Total RBAC Assessments by severity ‒ временной график, показывающий распределение оценок RBAC по степеням серьезности.
Exposed Secrets (не используется):
- Total Exposed Secrets by namespaces ‒ временной график, показывающий общее количество открытых секретов по пространствам имен.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для отображения информации.
cluster ‒ позволяет выбрать кластер Kubernetes, данные которого будут отображены.
namespace ‒ позволяет выбрать пространство имен Kubernetes, данные которого будут отображены. Включает опцию выбора всех пространств имен.
resolution ‒ настройка временного интервала для данных, предоставляемых дашбордом (доступные значения ‒ 1s, 15s, 30s, 1m, 3m, 5m).

Backend API Monitoring

Дашборд предназначен для мониторинга производительности и состояния Backend API. Он предоставляет комплексный обзор ключевых метрик, включая использование памяти, время отклика, размеры запросов и ответов, количество и успешность запросов, а также статистику по наиболее загруженным эндпоинтам. Используются технические показатели из системы мониторинга Prometheus, что позволяет оценивать эффективность работы API и выявлять узкие места в его производительности в реальном времени (рисунок 552).

Рисунок 552 ‒ Backend API Monitoring

Структура дашборда:

Stack Memory Usage ‒ отображает производную по времени использования памяти (stack_inuse_bytes) для контейнера backend-api, что позволяет отслеживать, как меняется стековая память во времени.
Current Response Time ‒ показывает текущее среднее время отклика API путём деления суммы длительности всех запросов на количество запросов за выбранный интервал.
Current Response Size (Average) ‒ средний размер ответов API, вычисляемый как отношение суммарного размера ответов к их количеству за интервал.
Total Reserved Memory ‒ временной график, показывающий среднее системное выделение памяти (sys_bytes) для backend-api, что отражает общее количество выделенной памяти под процесс.
Current Request Size (Average) ‒ средний размер входящих запросов, рассчитанный как отношение суммарного размера запросов к их количеству.
Total Requests ‒ общее число запросов к API за период, агрегированное по контейнеру.
Go Runtime Metrics ‒ временной график количества горутин в Go-приложении backend-api, что является индикатором загрузки исполнителя.
Success Rate (non-4|5xx responses) ‒ доля успешных ответов, не относящихся к ошибкам клиентской (4xx) и серверной (5xx) категории, по каждому URL.
Client requests ‒ временной график, показывающий топ-10 чередующихся по интенсивности запросов с разбивкой по URL, методам и кодам ответов.
Top Endpoints by Requests ‒ таблица, отображающая топ-10 endpoints по количеству запросов с детализацией по URL, методу и коду ответа.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных, используемый для получения метрик.
job ‒ позволяет фильтровать по значению лейбла job в метриках Prometheus. Используется для выбора набора данных, относящихся к нужному процессу или сервису.

Cluster API Controller Manager

Дашборд предназначен для мониторинга работы Cluster API Controller Manager в Kubernetes-кластере. Он предоставляет комплексный обзор состояния подключения к кластерам, здоровья кластеров, производительности контроллеров и ключевых метрик, связанных с их работой. Используются метрики Prometheus, отражающие такие показатели, как ошибки согласования, время выполнения операций, глубина рабочих очередей и статус лидерства. Это позволяет специалистам по DevOps и SRE оперативно выявлять и реагировать на проблемы в системе управления кластерами (рисунок 553).

Рисунок 553 ‒ Cluster API Controller Manager

Структура дашборда (метрики только на мастере):

Cluster Connection Status ‒ круговая диаграмма, отображающая состояние подключения к каждому кластеру. Использует минимальное значение метрики capi_cluster_cache_connection_up по именам и пространствам имен кластеров. Позволяет быстро определить, какие подключения активны.
Cluster Health Status ‒ отображает агрегированное состояние здоровья каждого кластера. Использует минимальное значение метрики capi_cluster_cache_healthcheck с группировкой по имени и пространству имен кластера.
Controller Reconcile Error Rate ‒ временной график, показывающий скорость возникновения ошибок при согласовании контроллеров (controller_runtime_reconcile_errors_total). Позволяет отслеживать стабильность работы контроллеров.
Controller Reconcile Duration ‒ временной график, отображающий 95-й и 50-й процентили длительности операций согласования для каждого контроллера, на основе гистограмм с Prometheus (controller_runtime_reconcile_time_seconds_bucket). Это помогает анализировать производительность и задержки.
Active Workers per Controller ‒ временной график, отображающий количество активных воркеров (рабочих потоков) на каждый контроллер (controller_runtime_active_workers), что позволяет оценить нагрузку и параллелизм выполнения.
Workqueue Depth ‒ временной график, показывающий глубину рабочих очередей контроллеров (workqueue_depth), что помогает выявить потенциальные узкие места в обработке задач.
Workqueue Add Rate ‒ отображает скорость добавления новых задач в рабочие очереди контроллеров (workqueue_adds_total), показывая уровень активности работы.
Webhook Latency (p95) ‒ временной график с 95-м процентилем задержки webhooks контроллеров (controller_runtime_webhook_latency_seconds_bucket), позволяющий выявлять проблемы с внешними вызовами.
SSA Cache Hit Rate ‒ временной график, отображающий процент попаданий в кеш SSA (Server-Side Apply) по каждому контроллеру и типу ресурса (kind). Рассчитывается как отношение количества попаданий к общему числу запросов (= попадания + промахи). Важная метрика для оценки эффективности кеширования.
Memory Usage ‒ статусная панель, отображающая объем используемой памяти процесса в байтах (go_memstats_alloc_bytes).
Goroutines ‒ панель, показывающая текущее количество активных горутин в процессе контроллера (go_goroutines), что помогает отследить нагрузку на Go-runtime.
Leader Election Status ‒ cтатус лидерства в рамках выбора мастера среди контроллеров (leader_election_master_status) с именем лидера.
Certificate Errors ‒ отображает число ошибок чтения сертификатов (certwatcher_read_certificate_errors_total); важная метрика для безопасности и корректной работы TLS.
Cluster Connection Details ‒ таблица с детализацией текущего состояния подключения к кластерам (capi_cluster_cache_connection_up) с автоматическим форматированием по меткам.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных, используемый для получения метрик.
job ‒ фильтр по полю job, который позволяет выбирать метрики по конкретным заданиям (jobs) в Prometheus. Опционально может включать все значения.

Данные параметры обеспечивают гибкую настройку источников данных и возможности фильтрации отображаемой информации по задачам мониторинга в кластерной среде.

Kube-VIP

Дашборд предназначен для мониторинга событий, связанных с работой сервиса Kube-VIP в Kubernetes-кластерах. Он позволяет отслеживать общее количество событий, распределение событий по типам и скорость возникновения событий во времени, что критично для анализа состояния сетевой виртуализации VIP-адресов в кластере. Используются метрики, собираемые Prometheus, что обеспечивает детальный и актуальный мониторинг сетевых сервисов и их событий (рисунок 554).

Рисунок 554 ‒ Kube-VIP

Структура дашборда:

Total Service Events ‒ отображает общее количество событий сервиса, агрегируя метрику kube_vip_manager_all_services_events. Это позволяет быстро оценить суммарный объём событий, связанных с Kube-VIP.
Service Events by Type ‒ круговая диаграмма, показывающая распределение всех событий по типам (type) из метрики kube_vip_manager_all_services_events. Это помогает визуально определить, какие типы событий преобладают и анализировать их соотношение.
Service Events Rate ‒ временной график, отображающий скорость возникновения событий различных типов (type) по метрике rate(kube_vip_manager_all_services_events5m). Это позволяет оценить динамику и частоту появления событий, что важно для оперативного реагирования и анализа поведения системы.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных, используемый для получения метрик.

Kubernetes

Kubernetes/API-сервер

Данный дашборд предназначен для мониторинга состояния API-серверов в окружении Kubernetes. Он предоставляет возможности отслеживания доступности и производительности запросов к API, позволяя анализировать как входящие (читающие), так и исходящие (записывающие) операции. С помощью этого инструмента можно оперативно выявлять ошибки и аномалии в работе сервисов, что критически важно для обеспечения устойчивости и надежности приложений (рисунок 555).

Рисунок 555 ‒ Kubernetes/API-сервер

Структура дашборда:

Доступность (30d) > 99.000% ‒ отображает процент успешных запросов к API за последние 30 дней.
Запас ошибок (30d) > 99.000% ‒ график, показывающий запас по ошибкам, остающимся при гарантии доступности 0,990%.
Доступность чтения (30d) ‒ отображает процент успешных запросов на чтение (LIST, GET) за последние 30 дней.
Чтение SLI: Запросы ‒ график, показывающий количество запросов на чтение (LIST, GET) в секунду по кодам ответов.
Чтение SLI: Ошибки ‒ график, отображающий процент ошибок (5xx) среди запросов на чтение.
Чтение SLI: Продолжительность ‒ график, показывающий 99-й процентиль времени выполнения запросов на чтение.
Доступность записи (30d) ‒ отображает процент успешных запросов на запись (POST, PUT, PATCH, DELETE) за последние 30 дней.
Запись SLI: Запросы ‒ график, показывающий количество запросов на запись в секунду по кодам ответов.
Запись SLI: Ошибки ‒ график, показывающий процент ошибок (5xx) среди запросов на запись.
Запись SLI: Продолжительность ‒ график, показывающий 99-й процентиль времени выполнения запросов на запись.
Скорость добавления в рабочую очередь ‒ график, отображающий общее количество добавлений в рабочую очередь в секунду.
Глубина рабочей очереди ‒ график, показывающий количество операций ввода-вывода, обрабатываемых одновременно в очереди.
Задержка в рабочей очереди ‒ график, показывающий, сколько времени в секундах элемент остается в очереди перед обработкой.
Использование памяти ‒ график, отображающий объем используемой памяти (в байтах) для API-серверов.
Использование ЦП ‒ график, показывающий использование времени процессом в последнюю единицу времени.
горутины ‒ график, отображающий количество активных горутинов.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных, используемый для отображения метрик.
service ‒ позволяет выбрать сервис, для которого будут фильтроваться метрики, или выбрать все сервисы (all) кластера.

Kubernetes/Controller Manager

Данный дашборд предназначен для мониторинга Kubernetes Controller Manager и предоставляет пользователям возможность отслеживать состояние и производительность компонентов системы. С его помощью можно наблюдать важные метрики, такие как количество запущенных процессов, интенсивность добавлений в рабочую очередь, задержки запросов Kube API и использование системных ресурсов. Период обновления данных составляет 10 секунд, что позволяет получать актуальную информацию о работе кластеров в режиме реального времени (рисунок 556).

Рисунок 556 ‒ Kubernetes/Controller Manager

Структура дашборда:

Запущено ‒ отображает общее количество запущенных экземпляров Kube Controller Manager на выбранном кластере.
Интенсивность добавления в рабочую очередь ‒ график, показывающий суммарное количество добавлений в рабочую очередь с разбивкой по кластеру и подам.
Глубина рабочей очереди ‒ график, отображающий количество операций ввода-вывода, которые могут одновременно обрабатываться системой.
Задержка рабочей очереди ‒ график, который показывает время, в течение которого элемент остается в рабочей очереди перед его обработкой.
Интенсивность запросов Kube API ‒ график, который отображает общее количество клиентских запросов к Kube API с разбивкой по коду ответа.
Задержка GET-запросов (99-й квантиль) ‒ график, показывающий задержку GET-запросов в секундах с разбивкой по типу запроса и URL.
Задержка POST-запросов (99-й квантиль) ‒ график, отображающий задержку POST-запросов в секундах с разбивкой по типу запроса и URL.
Использование памяти ‒ график, показывающий объем используемой памяти (в байтах) для каждого пода Kube Controller Manager.
Использование ЦП ‒ график, отображающий процессорное время, использованное последним объектом каждого пода за единицу времени.
Горутины ‒ график, показывающий количество активных горутин в каждом поде.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
pod ‒ позволяет выбрать один под для мониторинга или все поды на выбранном кластере.

Kubernetes/ETCD Cluster Health

Данный дашборд предназначен для мониторинга работоспособности кластера ETCD в окружении Kubernetes. Он интегрирован с системой сбора метрик VM Agent и предоставляет подробную информацию о работе ETCD, включая статус лидерства, количество изменений лидеров, размер базы данных, пропускную способность и различные метрики производительности. Пользователи могут отслеживать ключевые показатели эффективности и настраивать оповещения для повышения надежности и стабильности кластера (рисунок 557).

Рисунок 557 ‒ Kubernetes/ETCD Cluster Health

Структура дашборда:

ETCD Cluster View:
- Etcd has a leader? ‒ отображает информацию о наличии лидера в кластере ETCD.
- The total number of failed proposals seen ‒ показывает общее количество неудачных предложений в кластере.
- DB Size ‒ График, отображающий оценку общего размера базы данных, представлена как граф и статистика.
- The number of leader changes seen ‒ Количество изменений лидеров в кластере.
- ETCD rps ‒ показывает количество запросов в секунду к ETCD.
- RPS Successful Rate ‒ график, отображающий успешные запросы в секунду, представлены как граф и статистика.
- Members State ‒ таблица состояния членов кластера, показывает лидеров.
- RPS Failed Rate ‒ график, отображающий невыполненные запросы в секунду, представлены как граф и статистика.
Detailed:
- Memory ‒ график, отображающий использование памяти процессом пода ETCD.
- RPS Failed Rate ‒ график неудачных запросов в секунду по подам.
- Disk Sync Duration ‒ график, отображающий продолжительность синхронизации на диске, представлена как график с 99-ым процентилем.
- Disk Compact Duration ‒ график, отображающий время сжатия на диске, показано дважды; один из графиков ‒ с 99-ым процентилем.
- Heartbeat Failures ‒ график, показывающий количество сбоев отправки heartbeat.
- Raft Proposals ‒ график, отображающий общие метрики предложений Raft, включая уровень успешных и неудачных предложений.
- Proposals pending ‒ график, показывающий количество ожидающих предложений.
- The total number of consensus proposals committed ‒ общее количество предложений, согласованных в кластере.
- Client Traffic In ‒ график входящего трафика от клиентов.
- Client Traffic Out ‒ график исходящего трафика к клиентам.
- Total Leader Elections Per Day ‒ график, отображающий общее количество выборов лидеров в день.
- Peer Traffic In ‒ график, отображающий входящий трафик между узлами кластера.
- Peer Traffic Out ‒ график, отображающий исходящий трафик между узлами кластера.
- Disks operations ‒ график операций с дисками.
- Network ‒ графики общего трафика клиентов: как входящего, так и исходящего.
- Snapshot duration ‒ график, отображающий длительность снимков, устанавливает возможные проблемы с диском.
Alerts:
- ETCD disk io latency alerts ‒ график, показывающий оповещения по задержкам ввода-вывода на диске ETCD.
- alert if 99th percentile of round trips take 150ms ‒ график, показывающий оповещения при превышении 150 мс для 99-го процентиля времени обратного движения.
- ETCD Status ‒ график, показывающий статус системы ETCD, показывает общий статус подов.
- ETCD Leader Changes Alert ‒ график, показывающий предупреждения об изменениях лидера в кластере.
- Disk Compact Duration ‒ график, показывающий оповещения по времени сжатия на диске.
- Disk Sync Duration ‒ график, показывающий оповещения по времени синхронизации на диске.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.

Kubernetes/Ingress

Данный дашборд предназначен для мониторинга операторов NGINX Ingress в Kubernetes. Он позволяет пользователям отслеживать различные метрики, такие как объем запросов, коэффициенты успешности, нагрузки на сеть и использование ресурсов, а также осуществлять аналитику производительности Ingress-контроллеров. Благодаря графическому представлению данных и настраиваемым параметрам пользователи могут легко отслеживать состояние своих приложений и выявлять потенциальные проблемы с производительностью (рисунок 558).

Рисунок 558 ‒ Kubernetes/Ingress

Структура дашборда:

Controller Request Volume ‒ отображает объем запросов, обработанных контроллером Ingress.
Controller Connections ‒ показывает количество активных соединений контроллера NGINX.
Controller Success Rate (non-4|5xx responses) ‒ график, отображающий процент успешных ответов (коды ответов не 4xx и не 5xx).
Config Reloads ‒ отображает частоту перезагрузки конфигурации контроллера.
Last Config Failed ‒ отображает количество неудачных попыток перезагрузки последней конфигурации.
Ingress Request Volume ‒ временной график, показывающий объем запросов к определенному Ingress.
Ingress Success Rate (non-4|5xx responses) ‒ процент успешных ответов для конкретного Ingress.
Network I/O pressure ‒ графики, показывающие входящее и исходящее сетевое давление.
Average Memory Usage ‒ график, показывающий среднее значение потребляемой памяти контроллером NGINX.
Average CPU Usage ‒ график, показывающий среднее значение загрузки ЦП контроллером NGINX.
Ingress Percentile Response Times and Transfer Rates ‒ таблица, отображающая процентильные времена ответа и объем передаваемых данных для Ingress.
Ingress Percentile Response Times (Ingress Namespaces) ‒ временные ряды процентов по времени ответа для различных Ingress.
Ingress Request Latency Heatmap (Ingress Namespaces) ‒ Тепловая карта, показывающая задержку по запросам для Ingress.
Ingress Certificate Expiry ‒ таблица с информацией о времени истечения сертификатов для Ingress.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда..
namespace ‒ позволяет выбрать неймспейс, в котором работает контроллер Ingress.
controller_class ‒ позволяет выбрать класс контроллера для фильтрации метрик.
controller ‒ позволяет выбрать под контроллера для отслеживания метрик.
exported_namespace ‒ позволяет выбрать неймспейс Ingress для анализа запросов.
ingress ‒ позволяет выбрать конкретный Ingress для мониторинга его метрик.

Kubernetes/Kubelet

Данный дашборд предназначен для мониторинга состояния кластеров Kubernetes с использованием данных, получаемых через Kubelet. Он отображает ключевые метрики, такие как количество запущенных контейнеров, подов, а также время выполнения операций, что позволяет администраторам и DevOps-командам эффективно управлять ресурсами и реагировать на потенциальные проблемы (рисунок 559).

Рисунок 559 ‒ Kubernetes/Kubelet

Структура дашборда:

Запущенные Kubelet ‒ отображает суммарное количество всех запущенных Kubelet.
Запущенные поды ‒ отображает суммарное количество всех запущенных подов с разделением по узлам.
Запущенные контейнеры ‒ отображает суммарное количество всех запущенных контейнеров с разделением по узлам.
Фактическое кол-во томов ‒ отображает суммарное количество всех используемых томов.
Требуемое количество томов ‒ отображает суммарное количество необходимых для исправной работы томов.
Кол-во конфиг. ошибок ‒ отображает суммарное количество конфигурационных ошибок Kubelet.
Интенсивность работы (оп./с) ‒ график, отображающий количество операций в секунду по выполнению операций различных типов.
Интенсивность нарушений работы (оп./с) ‒ график, отображающий количество операций в секунду, затраченных на отдельные задачами Kubelet.
Длительность работы (99-й квантиль) ‒ график, отображающий 99-й квантиль количества операций в секунду некорректной работы Kubelet.
Интенсивность запуска подов (оп./с) ‒ график, отображающий время, затрачиваемое на запуск подов с разделением по узлам.
Длительность запуска подов (99-й квантиль) ‒ график, отображающий 99-й квантиль длительности запуска подов.
Интенсивность работы хранилища (оп./с) ‒ график, отображающий количество операций в секунду, затраченных на выполнение операций с хранилищами.
Интенсивность нарушений работы хранилища (оп./с) ‒ график, отображающий количество операций в секунду некорректной работы хранилища.
Продолжительность работы хранилища (99-й квантиль) ‒ график, отображающий 99-й квантиль времени выполнения операций с хранилищем.
Интенсивность обновления PLEG (оп./с) ‒ график, отображающий количество операций в секунду, выполняемых генератором событий PLEG.
Период обновления списка PLEG (99-й квантиль) ‒ график, отображающий 99-й квантиль времени обновления списка PLEG.
Продолжительность обновления списка PLEG (99-й квантиль) ‒ график, отображающий 99-й квантиль времени обновления списка PLEG.
Интенсивность удаленных вызовов (RPC) ‒ график, отображающий суммарное количество удаленных клиентских запросов в секунду, распределенных по кодам ответа.
Длительность запросов (99-й квантиль) ‒ график, отображающий 99-й квантиль продолжительности запросов к API.
Память ‒ график, отображающий Объем памяти, использованной Kubelet.
Использование ЦП ‒ Процессорное время, затраченное Kubelet.
горутины ‒ Количество горутин, используемых Kubelet.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
node ‒ позволяет выбрать узел для мониторинга. Доступные узлы берутся из данных кластера.

Kubernetes/Networking/Cluster

Данный дашборд предназначен для мониторинга сетевой активности кластеров Kubernetes. Он предоставляет детальную информацию о передаче и получении данных, а также о состоянии сети в рамках кластеров. С помощью этого дашборда пользователи могут отслеживать ключевые метрики, такие как скорость передачи байтов, количество переданных и полученных пакетов, а также количество потерянных пакетов, что является важной частью обеспечения стабильности и производительности приложений, работающих в контейнерах (рисунок 560).

Рисунок 560 ‒ Kubernetes/Networking/Cluster

Структура дашборда:

Current Rate of Bytes Received ‒ график, показывающий текущую скорость получения байтов по неймспейсу в кластере.
Current Rate of Bytes Transmitted ‒ график, показывающий текущую скорость передачи байтов по неймспейсу.
Current Status ‒ таблица, в которой отображаются текущие метрики по полученным и переданным байтам, средние значения, а также количество принятых и переданных пакетов и число потерянных пакетов.
Average Rate of Bytes Received ‒ график, показывающий среднюю скорость получения байтов по неймспейсу.
Average Rate of Bytes Transmitted ‒ график, показывающий среднюю скорость передачи байтов по неймспейсу.
Receive Bandwidth ‒ график, показывающий полосу пропускания для получения трафика по неймспейсу.
Transmit Bandwidth ‒ график, показывающий полосу пропускания для передачи трафика по неймспейсу.
Rate of Received Packets ‒ график, показывающий скорость получения пакетов по неймспейсу.
Rate of Transmitted Packets ‒ график, показывающий скорость передачи пакетов по неймспейсу.
Rate of Received Packets Dropped ‒ график, показывающий скорость потерянных пакетов при получении по неймспейсу.
Rate of Transmitted Packets Dropped ‒ график, показывающий скорость потерянных пакетов при передаче по неймспейсу.
Rate of TCP Retransmits out of all sent segments ‒ график, показывающий скорость повторной передачи TCP-сегментов из всех отправленных сегментов.
Rate of TCP SYN Retransmits out of all retransmits ‒ график, показывающий скорость повторной передачи TCP SYN из всех повторных передач.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для дашборда.
cluster ‒ позволяет пользователю выбрать конкретный кластер, данные о котором будут отображаться на дашборде, извлекая значения метки из данных, получаемых от kubelet.

Kubernetes/Networking/Namespace (Pods)

Данный дашборд предназначен для мониторинга сетевой активности подов в кластере Kubernetes. Он предоставляет визуализацию различных метрик, связанных с передачей и приемом сетевых данных, а также количеством переданных и потерянных пакетов. Дашборд позволяет администраторам и разработчикам отслеживать состояние сетевой активности в реальном времени, что критически важно для оптимизации производительности приложений и обеспечения стабильности работы контейнеризованных сервисов (рисунок 561).

Рисунок 561 ‒ Kubernetes/Networking/Namespace (Pods)

Структура дашборда:

Current Rate of Bytes Received ‒ панель отображает текущую скорость приема байт от подов в выбранном кластере и неймспейсе.
Current Rate of Bytes Transmitted ‒ панель показывает текущую скорость передачи байт от подов.
Current Network Usage ‒ таблица, в которой представлены метрики по сетевому использованию для каждого пода, включая скорость получения и передачи байт, скорость получения и передачи пакетов, а также количество потерянных пакетов.
Receive Bandwidth ‒ Временной график, отображающий скорость приема байт по подам.
Transmit Bandwidth ‒ Временной график, показывающий скорость передачи байт по подам.
Rate of Received Packets ‒ Временной график для мониторинга скорости получения пакетов по подам.
Rate of Transmitted Packets ‒ Временной график для мониторинга скорости передачи пакетов по подам.
Rate of Received Packets Dropped ‒ Временной график, показывающий скорость потерь пакетов при получении, сгруппированных по неймспейсу.
Rate of Transmitted Packets Dropped ‒ Временной график, отображающий скорость потерь пакетов при передаче по подам.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
namespace ‒ позволяет выбрать неймспейс, в пределах которого будут мониториться ресурсы.

Kubernetes/Networking/Namespace (Workload)

Данный дашборд предназначен для мониторинга сетевой активности контейнеров в окружении Kubernetes. Он предоставляет пользователю возможность отслеживать различные метрики, связанные с получением и передачей данных, а также состоянием сетевых ресурсов на уровне неймспейсов. Дашборд помогает оперативно выявлять проблемы и оптимизировать сетевую производительность путем анализа входящего и исходящего трафика, а также статистики по потерянным пакетам (рисунок 562).

Рисунок 562 ‒ Kubernetes/Networking/Namespace (Workload)

Структура дашборда:

Current Rate of Bytes Received ‒ отображает текущую скорость получения байтов в контейнерах по различным рабочим нагрузкам.
Current Rate of Bytes Transmitted ‒ отображает текущую скорость передачи байтов из контейнеров.
Current Status ‒ сводная таблица состояния, показывающая количество полученных и переданных байтов, а также пакетную активность (количество принятых и переданных пакетов).
Receive Bandwidth ‒ график, отображающий объем полученного трафика в байтах.
Transmit Bandwidth ‒ график, показывающий объем переданного трафика в байтах.
Average Container Bandwidth by Workload: Received ‒ средняя скорость получения данных контейнерами по рабочим нагрузкам.
Average Container Bandwidth by Workload: Transmitted ‒ средняя скорость передачи данных контейнерами по рабочим нагрузкам.
Rate of Received Packets ‒ график, показывающий скорость получения пакетов.
Rate of Transmitted Packets ‒ график, показывающий скорость передачи пакетов.
Rate of Received Packets Dropped ‒ график, отображающий скорость потерянных пакетов при получении.
Rate of Transmitted Packets Dropped ‒ график, отображающий скорость потерянных пакетов при передаче.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для запроса метрик.
namespace ‒ позволяет отфильтровать метрики по определенному неймспейсу в кластере.
type ‒ позволяет выбрать тип рабочей нагрузки.

Kubernetes/Networking/Pod

Данный дашборд предназначен для мониторинга сетевых показателей в среде Kubernetes. Он предоставляет пользователю возможность отслеживать текущие параметры сети, такие как скорость получения и передачи данных, а также количество пакетов, полученных и отправленных контейнерами. Дашборд использует данные из VM Agent для визуализации метрик, что позволяет быстро выявлять проблемы с сетью и анализировать производительность приложений (рисунок 563).

Рисунок 563 ‒ Kubernetes/Networking/Pod

Структура дашборда:

Current Rate of Bytes Received ‒ отображает текущую скорость получения байтов по указанному кластеру, неймспейсу и поду.
Current Rate of Bytes Transmitted ‒ показывает текущую скорость передачи байтов для заданных параметров.
Receive Bandwidth ‒ временной график, отображающий, скорость получения данных для каждого пода на протяжении времени.
Transmit Bandwidth ‒ временной график, показывающий, скорость передачи данных для каждого пода.
Rate of Received Packets ‒ временной график, показывающий скорость получения пакетов сети, сгруппированных по подам.
Rate of Transmitted Packets ‒ временной график, показывающий скорость передачи пакетов в сети для каждого пода.
Rate of Received Packets Dropped ‒ временной график, показывающий скорость потерянных пакетов, полученных по сети, для каждого пода.
Rate of Transmitted Packets Dropped ‒ временной график, показывающий скорость потерянных пакетов на уровне передачи для каждого пода.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
namespace ‒ позволяет выбрать неймспейс, для которого будут отображаться метрики.
pod ‒ позволяет выбрать один под для мониторинга или все поды на выбранном кластере.

Kubernetes/Networking/Workload

Данный дашборд предназначен для мониторинга сетевых показателей в средах Kubernetes. Он предоставляет пользователям возможность отслеживать текущие и средние скорости приема и передачи байтов, а также количество полученных и переданных пакетов. Это особенно полезно для администраторов и разработчиков, ответственных за производительность и надежность приложений, работающих в кластерах Kubernetes. Дашборд освещает критические метрики, которые помогают выявлять узкие места в сетевом взаимодействии рабочих нагрузок (рисунок 564).

Рисунок 564 ‒ Kubernetes/Networking/Workload

Структура дашборда:

Current Rate of Bytes Received ‒ отображает текущую скорость приема байтов в секундах для выбранных рабочих нагрузок.
Current Rate of Bytes Transmitted ‒ отображает текущую скорость передачи байтов в секундах для выбранных рабочих нагрузок.
Average Rate of Bytes Received ‒ отображает среднюю скорость приема байтов для выбранных рабочих нагрузок.
Average Rate of Bytes Transmitted ‒ отображает среднюю скорость передачи байтов для выбранных рабочих нагрузок.
Receive Bandwidth ‒ график потребляемой полосы пропускания для получаемых байтов.
Transmit Bandwidth ‒ график потребляемой полосы пропускания для передаваемых байтов.
Rate of Received Packets ‒ график, показывающий скорость получения пакетов в секунду для выбранных рабочих нагрузок.
Rate of Transmitted Packets ‒ график, показывающий скорость передачи пакетов в секунду для выбранных рабочих нагрузок.
Rate of Received Packets Dropped ‒ график, показывающий скорость потерянных пакетов при получении в секунду для выбранных рабочих нагрузок.
Rate of Transmitted Packets Dropped ‒ график, показывающий скорость потерянных пакетов при передаче в секунду для выбранных рабочих нагрузок.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
namespace ‒ позволяет выбрать неймспейс в кластере, для которого будут отображаться метрики.
workload ‒ позволяет выбрать конкретную загрузку по рабочим нагрузкам внутри указанного неймспейса.
type ‒ позволяет выбрать тип нагрузки, чтобы фильтровать метрики по конкретным рабочим нагрузкам.

Kubernetes/Persistent Volumes

Данный дашборд предназначен для мониторинга использования ресурсов постоянных томов в среде Kubernetes. Он позволяет отслеживать параметры, такие как объем занятой и свободной памяти, а также использование inode-томов. Этот инструмент полезен для администраторов системы и DevOps-специалистов, обеспечивая возможность контролировать состояние хранения данных и предотвращать возможные проблемы с нехваткой ресурсов (рисунок 565).

Рисунок 565 ‒ Kubernetes/Persistent Volumes

Структура дашборда:

Использование пространства томов ‒ график, показывающий объем занятой и свободной памяти постоянных томов. Метрики вычисляются с использованием запросов к kubelet, позволяя анализировать актуальное состояние использования хранилища.
Использование пространства томов ‒ отображает текущее значение процента использования памяти постоянных томов. Данная панель предоставляет быстрое понимание загруженности хранилища.
Использование inode-томов ‒ график, показывающий количество использованных inode на постоянных томах. Это важно для понимания того, насколько эффективно используются метаданные при работе с файловой системой.
Использование inode-томов ‒ отображает процент использованных inode, позволяющий быстро определить текущее состояние inode-ресурса.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда
namespace ‒ позволяет выбрать неймспейс, в пределах которого будут мониториться ресурсы.
volume ‒ дает возможность выбрать конкретный PersistentVolumeClaim для детального анализа его состояния.

Kubernetes/Compute Resources/Cluster

Данный дашборд предназначен для мониторинга ресурсов вычислений в кластере Kubernetes. Он предоставляет пользователям возможность отслеживать использование CPU и памяти, запрашиваемые и лимитированные ресурсы, а также сетевую активность и I/O-операции контейнеров. С помощью этого дашборда администраторы могут быстро оценить состояние кластера, выявить узкие места в ресурсах и оптимизировать распределение нагрузки (рисунок 566).

Рисунок 566 ‒ Kubernetes/Compute Resources/Cluster

Структура дашборда:

CPU Utilisation ‒ отображает коэффициент использования CPU на протяжении времени для выбранного кластера.
CPU Requests Commitment ‒ показывает соотношение запрашиваемых ресурсов CPU к общему количеству доступных ресурсов.
CPU Limits Commitment ‒ демонстрирует соотношение лимитов ресурсов CPU к общему количеству доступных ресурсов.
Memory Utilisation ‒ отображает процент использованной памяти по сравнению с общей доступной памятью в кластере.
Memory Requests Commitment ‒ показывает соотношение запрашиваемых ресурсов памяти к общему количеству доступных ресурсов.
Memory Limits Commitment ‒ демонстрирует соотношение лимитов ресурсов памяти к общему количеству доступных ресурсов.
CPU Usage ‒ отображает использование CPU по неймспейсу в виде временного ряда.
CPU Quota ‒ таблица, которая отображает данные о владельцах подов, количестве подов, использующем CPU, запрашиваемых ресурсах CPU и соотношении использования к лимитам по неймспейсам.
Memory ‒ отображает использование памяти контейнерами по неймспейсам в виде временного ряда.
Memory Requests by Namespace ‒ таблица, отображающая информацию о владении подами, использовании памяти и запрашиваемых ресурсах по неймспейсам.
Current Network Usage ‒ таблица, которая показывает текущую сетевую загрузку, включая количество переданных и полученных байтов и пакетов, а также количество потерянных пакетов по неймспейсам.
Receive Bandwidth ‒ отображает временной график входящей полосы пропускания для контейнеров по неймспейсам.
Transmit Bandwidth ‒ отображает временной график исходящей полосы пропускания для контейнеров по неймспейсам.
Average Container Bandwidth by Namespace: Received ‒ временной график, показывающий среднюю входящую полосу пропускания контейнеров по неймспейсам.
Average Container Bandwidth by Namespace: Transmitted ‒ временной график, демонстрирующий среднюю исходящую полосу пропускания контейнеров по неймспейсам.
Rate of Received Packets ‒ временной график, отображающий скорость потока пакетов, полученных контейнерами по неймспейсам.
Rate of Transmitted Packets ‒ временной график, показывающий скорость потока пакетов, отправленных контейнерами по неймспейсам.
Rate of Received Packets Dropped ‒ временной график, отображающий скорость потерянных пакетов, полученных контейнерами по неймспейсам.
Rate of Transmitted Packets Dropped ‒ временной график, показывающий скорость потерянных пакетов, отправленных контейнерами по неймспейсам.
IOPS(Reads+Writes) ‒ временной график, показывающий количество операций ввода-вывода в секунду (чтения и записи) по неймспейсам.
ThroughPut(Read+Write) ‒ временной график, отображающий объем данных, прочитанных и записанных с контейнерами, по неймспейсам.
Current Storage IO ‒ таблица, показывающая характеристики I/O контейнеров, включая чтения и записи данных, по неймспейсам.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
cluster ‒ позволяет выбирать кластер, для которого будут отображаться метрики, извлекая информацию из параметров метрик Kubernetes.

Kubernetes/Compute Resources/Namespace (Pods)

Данный дашборд предоставляет комплексный мониторинг ресурсов вычислений в Kubernetes-кластере на уровне неймспейса. Он позволяет отслеживать использование CPU и памяти, а также сетевую и дисковую активность контейнеров. Используя метрики от kube-state-metrics и kubelet, дашборд предлагает пользователю возможность визуализировать ключевые показатели производительности, выявлять узкие места и оптимизировать ресурсы в реальном времени (рисунок 567).

Рисунок 567 ‒ Kubernetes/Compute Resources/Namespace (Pods)

Структура дашборда:

CPU Utilisation (from requests) ‒ отображает использование CPU в процентах на основании запрашиваемых ресурсов.
CPU Utilisation (from limits) ‒ показывает использование CPU в процентах на основании установленных лимитов.
Memory Utilisation (from requests) ‒ выводит использование памяти на основании запрашиваемых ресурсов.
Memory Utilisation (from limits) ‒ отображает использование памяти на основании установленных лимитов.
CPU Usage ‒ визуализирует общее использование CPU для каждого пода, а также сравнивает с квотами на ресурсы.
CPU Quota ‒ таблица, показывающая использование CPU по подам и их квоты на ресурс, как по запросам, так и по лимитам.
Memory Usage (w/o cache) ‒ визуализирует использование памяти без учета кеша на уровне подов.
Memory Quota ‒ таблица, показывающая использование памяти и квоты на ресурс для каждого пода.
Current Network Usage ‒ таблица, отображающая текущую сетевую активность, включая количество полученных и переданных байтов и пакетов.
Receive Bandwidth ‒ график, показывающий количество полученных байтов по подам.
Transmit Bandwidth ‒ график, отображающий количество переданных байтов по подам.
Rate of Received Packets ‒ визуализация скорости полученных пакетов по подам.
Rate of Transmitted Packets ‒ визуализация скорости переданных пакетов по подам.
Rate of Received Packets Dropped ‒ график, отображающий скорость потерянных пакетов при получении.
Rate of Transmitted Packets Dropped ‒ график, показывающий скорость потерянных пакетов при передаче.
IOPS(Reads+Writes) ‒ визуализирует количество операций чтения и записи на уровне подов.
ThroughPut(Read+Write) ‒ отображает пропускную способность чтения и записи для подов.
Current Storage IO ‒ таблица, показывающая текущие операции ввода-вывода для контейнеров по подам.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
cluster ‒ позволяет пользователю выбрать конкретный кластер для мониторинга, извлекая значения меток с помощью запроса.
namespace ‒ позволяет выбрать неймспейс, в пределах которого будут мониториться ресурсы.

Kubernetes/Compute Resources/Namespace (Workloads)

Данный дашборд предназначен для мониторинга ресурсов вычислений в кластере Kubernetes на уровне неймспейса. Он предоставляет пользователям возможность отслеживать использование CPU и памяти, а также сетевую активность контейнеров внутри рабочих нагрузок. С помощью данного дашборда можно эффективно управлять ресурсами, выявлять перегрузки и оптимизировать распределение нагрузки на кластер (рисунок 568).

Рисунок 568 ‒ Kubernetes/Compute Resources/Namespace (Workloads)

Структура дашборда:

CPU Usage ‒ отображает временной график использования CPU контейнерами в выбранном неймспейсе и рабочей нагрузке.
CPU Quota ‒ таблица, показывающая информацию о квотах CPU на уровне рабочих нагрузок, включая полное использование и запрашиваемые ресурсы.
Memory Usage ‒ отображает временной график использования памяти контейнерами в выбранном неймспейсе и рабочей нагрузке.
Memory Quota ‒ таблица, показывающая информацию о квотах памяти на уровне рабочих нагрузок, включая полное использование и запрашиваемые ресурсы.
Current Network Usage ‒ таблица, представляющая текущую сетевую активность для выбранных контейнеров, включая полученные и переданные байты, пакеты и их потери.
Receive Bandwidth ‒ временной график, отображающий скорость получения сетевых данных на уровне рабочих нагрузок.
Transmit Bandwidth ‒ временной график, отображающий скорость передачи сетевых данных на уровне рабочих нагрузок.
Average Container Bandwidth by Workload: Received ‒ временной график, показывающий среднюю скорость получения данных контейнерами по рабочей нагрузке.
Average Container Bandwidth by Workload: Transmitted ‒ временной график, показывающий среднюю скорость передачи данных контейнерами по рабочей нагрузке.
Rate of Received Packets ‒ временной график, отображающий скорость получения сетевых пакетов.
Rate of Transmitted Packets ‒ временной график, отображающий скорость передачи сетевых пакетов.
Rate of Received Packets Dropped ‒ временной график, показывающий скорость потерь полученных пакетов.
Rate of Transmitted Packets Dropped ‒ временной график, показывающий скорость потерь переданных пакетов.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
namespace ‒ позволяет выбрать неймспейс, в пределах которого будут мониториться ресурсы.
type ‒ позволяет выбрать тип рабочей нагрузки (workload) для более детального анализа метрик.

Kubernetes/Compute Resources/Node (Pods)

Данный дашборд предназначен для мониторинга ресурсов вычислительных узлов в кластере Kubernetes. Он предоставляет важную информацию о потреблении ресурсов, таких как CPU и память, а также их квотах для отдельных подов. Пользователи могут быстро оценить текущее состояние узлов, контролируя максимальные доступные мощности и использование ресурсов, что является ключевым аспектом для обеспечения высокой производительности и стабильности приложений в контейнерах (рисунок 569).

Рисунок 569 ‒ Kubernetes/Compute Resources/Node (Pods)

Структура дашборда:

CPU Usage ‒ отображает динамику использования CPU в подах, показывая как текущую загрузку, так и максимальную доступную мощность для заданного узла.
CPU Quota ‒ таблица, отображающая квоты по CPU для подов, включая текущее использование, запрошенные ресурсы и лимиты.
Memory Usage (w/o cache) ‒ показывает использование памяти подами без учета кеша, а также максимальную доступную память для узла.
Memory Quota ‒ таблица, которая отображает использование памяти подами, запросы и лимиты на память, а также разбиение по RSS, кешам и свопам для более глубокого анализа.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для мониторинга, в данном случае используется VM Agent.
node ‒ позволяет выбрать узел в кластере, что также помогает в детальном анализе ресурсов на уровне узлов.

Kubernetes/Compute Resources/Pod

Данный дашборд предназначен для мониторинга ресурсов контейнеров в среде Kubernetes. Он предоставляет пользователям возможность отслеживать использование CPU и памяти, сетевые показатели, а также ввод-вывод операций на дисках. С помощью этого дашборда администраторы и разработчики могут быстро выявлять проблемы с производительностью и оптимизировать распределение ресурсов (рисунок 570).

Рисунок 570 ‒ Kubernetes/Compute Resources/Pod

Структура дашборда:

CPU Usage ‒ отображает использование CPU в контейнерах выбранного пода на основе показателей, полученных из VM Agent.
CPU Throttling ‒ показывает throttling CPU, что позволяет отслеживать ограничения на использование CPU.
CPU Quota ‒ таблица, отображающая текущие лимиты и запросы на использование CPU.
Memory Usage (WSS) ‒ отображает использование рабочей памяти в контейнерах выбранного пода.
Memory Quota ‒ таблица, показывающая лимиты и запросы на использование памяти для контейнеров.
Receive Bandwidth ‒ отображает данные о входящей полосе пропускания для контейнеров.
Transmit Bandwidth ‒ показывает данные о исходящей полосе пропускания для контейнеров.
Rate of Received Packets ‒ отображает скорость получения пакетов.
Rate of Transmitted Packets ‒ отображает скорость отправки пакетов.
Rate of Received Packets Dropped ‒ показывает скорость получения потерянных пакетов.
Rate of Transmitted Packets Dropped ‒ отображает скорость отправки потерянных пакетов.
IOPS (Pod) ‒ отображает количество операций ввода-вывода в секунду (IOPS) для пода.
ThroughPut (Pod) ‒ показывает скорость передачи данных (ThroughPut) для пода.
IOPS (Containers) ‒ отображает количество операций ввода-вывода в секунду (IOPS) для контейнеров.
ThroughPut (Containers) ‒ показывает скорость передачи данных (ThroughPut) для контейнеров.
Current Storage IO ‒ таблица, показывающая текущие операции ввода и вывода для контейнеров, включая количество прочитанных и записанных байтов.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
namespace ‒ позволяет выбрать неймспейс, в пределах которого будут мониториться ресурсы.
pod ‒ позволяет выбрать конкретный под для мониторинга или все поды на выбранном кластере.

Kubernetes/Compute Resources/Workload

Данный дашборд предназначен для мониторинга ресурсов вычислительной среды Kubernetes. Он предоставляет детальную информацию о нагрузках на CPU, памяти и сетевых интерфейсах, а также о квотах, выделенных под эти ресурсы. С помощью визуализации временных рядов и таблиц в реальном времени можно отслеживать производительность и эффективность использования ресурсов для различных workloads в кластере (рисунок 571).

Рисунок 571 ‒ Kubernetes/Compute Resources/Workload

Структура дашборда:

CPU Usage ‒ отображает использование CPU для каждого пода с помощью временных рядов.
CPU Quota ‒ таблица, отображающая информацию о квоте CPU, выделенной для подов в виде таблицы на основе различных метрик.
Memory Usage ‒ показывает текущее использование памяти подами в формате временных рядов.
Memory Quota ‒ показывает квоты на использование памяти для подов с подробной информацией в виде таблицы.
Current Network Usage ‒ отображает текущую сетевую активность подов с помощью таблицы, включая как входящий, так и исходящий трафик.
Receive Bandwidth ‒ временной график, показывающий объем входящей сетевой активности для подов.
Transmit Bandwidth ‒ временной график, показывающий объем исходящей сетевой активности для подов.
Average Container Bandwidth by Pod: Received ‒ среднее значение входящего трафика по подам в формате временных рядов.
Average Container Bandwidth by Pod: Transmitted ‒ среднее значение исходящего трафика по подам в формате временных рядов.
Rate of Received Packets ‒ временной график, отображающий среднюю скорость получаемых сетевых пакетов.
Rate of Transmitted Packets ‒ временной график, отображающий среднюю скорость отправляемых сетевых пакетов.
Rate of Received Packets Dropped ‒ временной график, показывающий количество потерянных входящих пакетов.
Rate of Transmitted Packets Dropped ‒ временной график, показывающий количество потерянных исходящих пакетов.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
cluster ‒ позволяет выбрать конкретный кластер Kubernetes для мониторинга.
namespace ‒ позволяет выбрать неймспейс, в котором происходит мониторинг.
type ‒ позволяет выбрать тип workload для отображаемых метрик.
workload ‒ позволяет выбрать конкретный workload в заданном неймспейсе и кластере.

Kubernetes/Планировщик

Данный дашборд предназначен для мониторинга работы планировщика Kubernetes. Он позволяет отслеживать ключевые метрики, связанные с процессом планирования, включая количество активных планировщиков, задержки при планировании и статистику HTTP-запросов к API Kube. Дашборд предоставляет графическую визуализацию данных, что помогает в быстром выявлении и решении проблем с производительностью в кластере Kubernetes (рисунок 572).

Рисунок 572 ‒ Kubernetes/Планировщик

Структура дашборда:

Запущено ‒ отображает количество запущенных планировщиков в кластере.
Интенсивность планирования ‒ график, показывающий длительность различных стадий планирования в операциях в секунду.
Задержка при планировании (99-й квартиль) ‒ график, показывающий 99-й квартиль времени задержки при планировании для различных стадий планирования, таких как e2e, binding, scheduling algorithm и volume.
Интенсивность запросов Kube API ‒ график, показывающий количество HTTP-запросов, разделенных по коду статуса, методу и хосту.
Задержка POST-запроса (99-й квартиль) ‒ график, показывающий 99-й квартиль задержки POST-запроса в секундах, сгруппированный по методам и URL.
Задержка при GET-запросе (99-й квартиль) ‒ график, показывающий 99-й квартиль задержки GET-запроса в секундах, сгруппированный по методам и URL.
Память ‒ график, показывающий объем памяти, используемой планировщиком, в байтах.
Использование ЦП ‒ график, показывающий процессорное время, затрачиваемое на работающий планировщик.
горутины ‒ график, показывающий число горутин, используемых планировщиком.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
service ‒ позволяет выбрать сервис, для которого будут фильтроваться метрики, или выбрать все сервисы (All) кластера.

Kubernetes/StatefulSet

Данный дашборд предназначен для мониторинга состояния StatefulSet в Kubernetes-кластере. Он предоставляет наглядные метрики, позволяющие отслеживать использование ресурсов, таких как процессор, память и сетевые взаимодействия, а также показатели, связанные с репликацией StatefulSet. Используя дашборд, пользователи могут эффективно анализировать производительность и состояние приложений, работающих в режиме Stateful (рисунок 573).

Рисунок 573 ‒ Kubernetes/StatefulSet

Структура дашборда:

ЦП ‒ отображает процессорное время, затраченное на работу со Stateful.
Память ‒ отображает объем памяти, используемый StatefulSet.
Сеть ‒ отображает количество байт, переданных и отправленных StatefulSet.
Требуется реплик ‒ отображает максимально возможное число реплик.
Количество реплик этой версии ‒ отображает максимально доступное количество реплик на данный момент.
Наблюдаемая версия ‒ отображает номер генерации, наблюдаемой контроллером развертывания.
Генерация метаданных ‒ отображает номер последовательности, представляющий конкретную генерацию желаемого состояния StatefulSet.
Реплики ‒ временной график метрик по репликам, включая максимальное, созданное, готовое и обновленное число реплик.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
cluster ‒ позволяет выбрать кластера Kubernetes для мониторинга.
namespace ‒ позволяет выбрать неймспейс, в пределах которого будут мониториться ресурсы.
statefulset ‒ позволяет выбрать конкретный StatefulSet для детального мониторинга.

Kubernetes/Views/Global

Данный дашборд предназначен для мониторинга Kubernetes-кластеров и представляет собой современный "Глобальный обзор", созданный для kube-VM Agent-stack и использующий последние функции Grafana. Он позволяет пользователям отслеживать ресурсы кластера, такие как использование процессора и памяти, количество узлов, подов и другие метрики, что обеспечивает эффективное управление ресурсами и поддержание стабильной работы приложений (рисунок 574).

Рисунок 574 ‒ Kubernetes/Views/Global

Структура дашборда:

Overview:

Global CPU Usage ‒ отображает данные о среднем использовании ЦП в процентовом соотношении, включая метрики по реальному использованию, запросам и лимитам ресурсов.
Global RAM Usage ‒ представляет информацию об использовании оперативной памяти, включая реальные данные, запросы и лимиты памяти.
Nodes ‒ показывает общее количество узлов в кластере.
Kubernetes Resource Count ‒ визуализирует количество различных ресурсов Kubernetes, включая неймспейсы, запущенные контейнеры, поды, сервисы и другие.
Namespaces ‒ отображает общее количество созданных неймспейсов в кластере.
CPU Usage ‒ информирует о текущем использовании ЦП в кластере, включая реальные данные, запросы, лимиты и общее количество ядер ЦП.
RAM Usage ‒ отображает показатели использования оперативной памяти, включая реальные данные, запросы и лимиты, а также общее количество доступной памяти.
Running Pods ‒ отображает текущее количество запущенных подов.

Resources:

Cluster CPU Utilization ‒ график, показывающий среднее использование ЦП на кластер в процентах.
Cluster Memory Utilization ‒ выводит процентное использование оперативной памяти кластера.
CPU Utilization by namespace ‒ оценка использования ЦП по отдельным неймспейсам.
Memory Utilization by namespace ‒ отображает использование оперативной памяти по неймспейсам.
CPU Utilization by node ‒ график средних показателей использования ЦП для каждого узла.
Memory Utilization by node ‒ визуализация использования оперативной памяти по узлам.
CPU Throttled seconds by namespace ‒ отображает информацию о времени простоя ЦП по неймспейсам.
CPU Core Throttled by node ‒ показывает, сколько времени ядра ЦП находились в состоянии ограничения.

Kubernetes:

Kubernetes Pods QoS classes ‒ отображает количество подов по классам качества обслуживания (QoS).
Kubernetes Pods Status Reason ‒ информирует о причинах статусов подов.
OOM Events by namespace ‒ отображает количество событий завершения работы из-за недостатка памяти по неймспейсам.
Container Restarts by namespace ‒ информирует о количестве перезапусков контейнеров по неймспейсам.
Network:
Global Network Utilization by device ‒ отражает загрузку сети по устройствам, исключая виртуальные устройства.
Network Saturation: Packets dropped ‒ показывает количество потерянных пакетов при получении и отправке данных.
Network Received by namespace ‒ отображает получение и передачу данных по неймспейсам.
Total Network Received (with all virtual devices) by node ‒ информирует о полученных и переданных данных по узлам, включая все виртуальные устройства.
Network Received (without loopback) by node ‒ показывает сетевую активность по узлам без учета петлевых устройств.
Network Received (loopback only) by node ‒ визуализирует сетевой активности только по петлевым устройствам на узлах.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
role ‒ позволяет пользователю выбрать роль узлов для фильтрации метрик.
node ‒ предоставляет возможность фильтровать метрики по конкретному узлу.
resolution ‒ позволяет пользователю выбрать временное разрешение для отображаемых данных (1s, 15s, 30s, 1m, 3m, 5m).

Kubernetes/System/CoreDNS

Дашборд представляет собой решение для мониторинга CoreDNS в кластерах Kubernetes. Он создан для использования совместно с kube-prometheus-stack и реализует последние функции Grafana. Дашборд позволяет отслеживать различные метрики, связанные с работой CoreDNS, включая статус здоровья, использование ресурсов, статистику DNS-запросов и кеширования (рисунок 575).

Рисунок 575 ‒ Kubernetes/System/CoreDNS

Структура дашборда:

CoreDNS ‒ Health Status ‒ отображает состояние здоровья экземпляров CoreDNS, проверяя доступность сервиса через метрику up.
CoreDNS ‒ CPU Usage by instance ‒ показывает использование процессора по каждому экземпляру CoreDNS, используя метрику process_cpu_seconds_total.
CoreDNS ‒ Memory Usage by instance ‒ показывает использование памяти по экземплярам CoreDNS, основываясь на метрике process_resident_memory_bytes.
CoreDNS ‒ Total DNS Requests ($protocol) ‒ отображает общее количество DNS-запросов за определенный период с возможностью фильтрации по протоколу.
CoreDNS ‒ Average Packet Size ($protocol) ‒ предоставляет данные о средней величине пакета DNS-запроса, сгруппированные по протоколам.
CoreDNS ‒ Requests by type ‒ позволяет увидеть количество DNS-запросов, разделенных по типам (A, AAAA, CNAME и т. д.).
CoreDNS ‒ Requests by return code ‒ показывает, сколько запросов было выполнено с различными кодами возврата (например, SUCCESS, SERVFAIL).
CoreDNS ‒ Total Forward Requests ‒ отображает общее количество запросов, перенаправленных на другие DNS-серверы (не используется).
CoreDNS ‒ DNS Errors ‒ информирует о количестве ошибок DNS (например, SERVFAIL и REFUSED), возникающих во время операций (не используется).
CoreDNS ‒ Cache Hits / Misses ‒ предоставляет метрики кеширования, показывающие количество попаданий и промахов при использовании кеша DNS.
CoreDNS ‒ Cache Size ‒ отображает размер кеша DNS, агрегируя данные по типам.
CoreDNS ‒ DNS request duration ‒ отображает тепловую карту времени обработки DNS-запросов.
CoreDNS ‒ DNS request size ‒ представляет размеры DNS-запросов в виде тепловой карты.
CoreDNS ‒ DNS response size ‒ показывает размеры DNS-ответов в виде тепловой карты.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
cluster ‒ позволяет выбрать кластер Kubernetes для мониторинга. Переменная запрашивает уникальные значения метки cluster из метрики kube_node_info.
instance ‒ позволяет фильтровать мониторинг по экземплярам CoreDNS, основанным на состоянии работы. Эта переменная включает все доступные экземпляры для выбора.
protocol ‒ позволяет выбрать протокол для отображения метрик DNS-запросов (например, UDP или TCP).
resolution ‒ позволяет выбрать разрешение данных для отображения метрик с доступными значениями от 1 секунды до 5 минут.
job ‒ позволяет выбрать заданиt (jobs), чтобы фильтровать метрики CoreDNS по различным задачам.

Экспортер метрик

Экспортер метрик/Узлы

Данный дашборд предназначен для мониторинга метрик узлов, собранных с помощью экспортеров VM Agent, в частности node-exporter. Он предоставляет пользователям возможность отслеживания ключевых показателей производительности и состояния системы, включая использование ЦП, памяти, дискового пространства и сетевых ресурсов. Информация отображается в виде графиков и статистических данных, позволяя быстро оценивать загрузку и производительность узлов (рисунок 576).

Рисунок 576 ‒ Экспортер метрик/Узлы

Структура дашборда:

Использование ЦП ‒ временной график, показывающий нагрузку на ЦП для выбранного узла в процентах.
Средняя нагрузка ‒ временной график, показывающий среднюю нагрузку на узел за различные временные интервалы (1 минута, 5 минут и 15 минут), а также количество логических ядер.
Использование памяти ‒ временной график, показывающий использование памяти на узле, включая общую выделенную, буферизованную, кешированную и свободную память.
Использование памяти ‒ статистика для оперативной памяти, показывающая процент используемой памяти на узле.
Ввод/вывод диска ‒ временной график, показывающий объем памяти, использованной при операциях чтения и записи на диске, а также общее время, проведенное в операциях ввода/вывода.
Использование дискового пространства ‒ график, показывающий использование дискового пространства на устройстве, включая доступное и занятое пространство.
Сеть: Получено ‒ график, отображающий объем данных, полученных узлом от конкретного устройства.
Сеть: Отправлено ‒ график, показывающий объем данных, отправленных узлом конкретным устройствам.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для дашборда. В данном случае используется VM Agent.
instance ‒ позволяет выбрать конкретный экземпляр узла, для которого будут отображаться метрики, при этом данные извлекаются на основе значений меток.

Экспортер метрик/Метод USE/Кластер

Данный дашборд предназначен для мониторинга ресурсов кластера с использованием экспорта метрик при помощи node-exporter. Он позволяет визуализировать ключевые показатели производительности (KPI) системы, такие как использование процессора, памяти, сетевых ресурсов и операций ввода-вывода на дисках. Основная цель дашборда — обеспечить технических специалистов необходимой информацией для анализа состояния и производительности системы, что позволяет быстро идентифицировать и устранять узкие места (рисунок 577).

Рисунок 577 ‒ Экспортер метрик/Метод USE/Кластер

Структура дашборда:

ЦП:

Использование ЦП ‒ временной график, показывающий процент процессорного времени, используемого экспортером метрик.
Превышение нагрузки на одно ядро ‒ временной график, показывающий процент нагрузки на экспортер метрик на ЦП.

Память:

Использование памяти ‒ временной график, показывающий объем памяти, используемой экспортером метрик.
Ошибки страниц памяти ‒ временной график, показывающий количество ошибок записи в память за последние 5 минут.

Сеть:

Использование сети (получено/отправлено) ‒ временной график, показывающий скорость передачи данных в байтах/секунду для отправленных и полученных байтов.
Превышение нагрузок сети (сбросов при отправке/получении) ‒ временной график, показывающий скорость сброшенных байтов на отправленных и полученных соединениях.

Ввод/вывод диска:

Использование Ввода/вывода диска ‒ временной график, показывающий нагрузку операций ввода/вывода на диск.
Превышение операций дискового ввода-вывода ‒ временной график, показывающий взвешенную нагрузку операций ввода/вывода на основе времени.

Дисковое пространство:

Использование дискового пространства ‒ временной график, показывающий процент занятого дискового пространства на файловых системах.

Настраиваемые параметры:

datasource ‒ позволяет выбрать источник данных для настройки дашборда.
cluster ‒ позволяет выбрать кластер для мониторинга и фильтровать метрики по выбранному кластеру.

Экспортер метрик/Метод USE/Узел

Данный дашборд предназначен для мониторинга производительности узлов в кластере с использованием экспорта метрик через Node Exporter. Он позволяет отслеживать ключевые метрики нагрузки на процессоры, память, сеть и диски, что дает возможность анализировать состояние системных ресурсов и выявлять возможные проблемы с их производительностью (рисунок 578).

Рисунок 578 ‒ Экспортер метрик/Метод USE/Узел

Структура дашборда:

ЦП:

Использование ЦП ‒ график, показывающий процессорное время, использованное выбранным узлом экспортера метрик.
Превышение нагрузки на одно ядро ‒ график, показывающий нагрузку на ЦП для выбранного узла, показывая соотношение текущей нагрузки к полной загрузке ядра.

Память:

Использование памяти ‒ график, показывающий объем памяти, использованный выбранным узлом экспортера метрик.
Ошибки страниц памяти ‒ график, показывающий количество ошибок памяти за последние 5 минут, что позволяет следить за состоянием управления памятью.

Сеть:

Использование сети (байт получено/отправлено) ‒ график, показывающий скорость получения и отправки байтов для выбранного узла экспортера метрик.
Превышение нагрузки сети (сбросов при отправке/получении) ‒ график, показывающий обращение к сетевым интерфейсам с зафиксированным количеством сбросов при отправке и получении данных.

Ввод/вывод диска:

Нагрузка на диск ‒ график, показывающий нагрузку операций ввода/вывода на каждый диск в системе.
Превышение операций дискового ввода-вывода ‒ график, показывающий весомую нагрузку операций ввода/вывода на диски, отображая значения в байтах.

Дисковое пространство:

Использование дискового пространства ‒ график, показывающий процент занятого дискового пространства на выбранном устройстве.

Настраиваемые параметры:

datasource ‒ позволяет выбирать источник данных для отображения метрик; в данном случае используется VM Agent.
cluster ‒ позволяет выбрать кластер для мониторинга, фильтруя по метке времени.
instance ‒ позволяет выбрать конкретный экземпляр узла, для которого будут отображены метрики, что позволяет детализировать мониторинг на уровне отдельных узлов.

VictoriaMetrics

VictoriaMetrics/vmagent

Данный дашборд предоставляет обширный обзор работы VictoriaMetrics vmagent версии 1.102.0 и выше. Он предназначен для мониторинга различных метрик, связанных с процессом сбора и обработки данных, а также выявления ошибок и производительности компонентов системы. Основные возможности дашборда включают отображение статистики о числе извлеченных образцов, уровнях загрузки ресурсов, ошибках и задержках при записи данных, что позволяет оперативно реагировать на возможные проблемы в инфраструктуре.

Структура дашборда:

Stats:

Samples scraped/s ‒ отображает частоту извлечения образцов из настроенных источников.
Samples ingested/s ‒ показывает скорость обработки образцов в систему.
Targets scraped/s ‒ отображает информацию о количестве целевых метрик, извлекаемых в секунду.
Scrape targets ‒ позволяет увидеть общее количество всех настроенных целей для извлечения метрик и состояние их работы (включено или выключено).
Log errors (30m) ‒ отображает количество ошибок, сгенерированных в логах за последние 30 минут.
Persistent queue size ‒ показывает размер ожидающих образцов в байтах, которые не были отправлены в удаленное хранилище. Увеличение этого значения может указывать на проблемы с подключением.
Uptime ‒ график, показывающий время работы экземпляров системы.

Overview:

Samples rate ($instance) ‒ график, показывающий скорость ввода и вывода образцов, включая модели push и pull.
Persistent queue size ($instance) to ($url) ‒ график, показывающий размер постоянной очереди ожидающих образцов, которые еще не были отправлены в удаленное хранилище, с акцентом на значения выше 2MB.
Logging rate ‒ график, показывающий частоту логирования сообщений по уровню серьезности.
Requests rate ($instance) ‒ график, показывающий частоту запросов, обрабатываемых HTTP-сервером vmagent.
Errors rate ($instance) ‒ график, показывающий частоту ошибок для различных метрик, что может указывать на проблемы с сетью или форматированием данных.

Resource usage:

CPU ($instance) ‒ график, показывающий использование процессора экземпляра.
RSS memory % usage ($instance) ‒ график, показывающий процент использования резидентной памяти (RSS) экземпляра.
Disk writes/reads ($instance) ‒ временной график, отображающий показатели записи/чтения данных из хранилища.
Network usage ($instance) ‒ временной график, показывающий скорость передачи данных, принимаемых и отправляемых vmagent.
Open FDs usage % ($instance) ‒ временной график, показывающий процент открытых дескрипторов файлов в ОС для каждого экземпляра.
Goroutines ($instance) ‒ временной график, показывающий количество горутин, выполняемых в экземпляре.
CPU spent on GC ($instance) ‒ временной график, показывающий процент использования процессора, занимаемого сборщиком мусора.
Threads ($instance) ‒ временной график, показывающий количество потоков, запущенных в экземпляре.

Troubleshooting:

Top 10 jobs by unique samples ‒ временной график, показывающий0 основных jobs по количеству новых зарегистрированных series за последние 5 минут.
Top 10 instances by unique samples ‒ временной график, показывающий10 основных экземпляров по количеству новых зарегистрированных series за последние 5 минут.
Persistent queue write saturation ($instance) ‒ временной график, отображающий показатели насыщения очереди записи для экземпляра.
Persistent queue read saturation ($instance) ‒ временной график, отображающий показатели насыщения очереди чтения для экземпляра.
Data blocks dropped ($instance) to ($url) ‒ отображает частоту сброшенных блоков данных при получении ответов "400 Bad Request" и "409 Conflict" от удаленного хранилища.
Non-default flags ‒ таблица нестандартных флагов конфигурации, установленных для jobs и экземпляров.

Scraping:

Scrape targets UP(By Type) ‒ временной график, показывающий количество действующих целевых метрик по типам.
Scrape targets DOWN(By Type) ‒ временной график, показывающий количество недоступных целевых метрик по типам.
Scrape rate ($instance) ‒ временной график, показывающий число запросов на извлечение метрик в секунду.
Scraped datapoints rate ($instance) ‒ временной график, показывающий количество извлеченных данных в секунду.
Scrape response size 0.99 quantile ($instance) ‒ временной график, показывающий 99-й процентиль размера ответов на запросы.
Scrape duration 0.99 quantile ($instance) ‒ временной график, показывающий 99-й процентиль времени, необходимого для извлечения метрик.
Scrape fails ($instance) ‒ временной график, показывающий частоту сбоев при извлечении метрик.

Ingestion:

Requests rate ($instance) ‒ временной график, показывающий частоту запросов на запись данных в ingestserver и HTTP сервер.
Rows rate ($instance) ‒ временной график, показывающий частоту строк, загружаемых в vmagent через push-протоколы.
Concurrent inserts ($instance) ‒ временной график, показывающий количество одновременных вставок данных в систему.
Error rate ($instance) ‒ временной график, показывающий частота ошибок при записи в ingestserver и HTTP-сервер.

Streaming aggregation:

Matched samples ($instance) ‒ отображает количество образцов, соответствующих правилам агрегации.
Ignored samples ($instance) ‒ отображает частоту игнорируемых образцов во время агрегации.
Produced samples ($instance) ‒ отображает количество созданных образцов по правилам агрегации.
Flush timeouts ($instance) ‒ отображает показатели тайм-аутов, возникающих во время дедупликации или агрегации.
Samples lag 0.99 quantile ($instance) ‒ отображает задержку между временными метками образцов внутри одной группы.
Dedup flush duration 0.99 quantile ($instance) ‒ отображает 99-й процентиль продолжительности очистки для агрегированных данных.
Labels compressor ($instance) ‒ временной график, показывающий размер компрессора меток по количеству записей.

Remote write:

Requests rate ($instance) to ($url) ‒ временной график, показывающий частоту запросов к удаленным конечным точкам.
Bytes write rate ($instance) ‒ временной график, показывающий глобальную скорость записи байтов через удаленные соединения.
Retry rate ($instance) to ($url) ‒ временной график, показывающий частоту повторных попыток запросов к удаленным конечным точкам.
Connections ($instance) ‒ временной график, показывающий текущее количество установленных соединений с удаленными конечными точками.
Hourly series limit ‒ временной график, показывающий использование предела уникальных серий за час.
Remote write connection saturation ($instance) ‒ временной график, отображающий показатели насыщения соединений с удаленными хранилищами.
Daily series limit ‒ временной график, отображающий использование предела уникальных серий за день.

Drilldown:

CPU usage ($instance) ‒ временной график, отображающий использование процессора экземпляра.
RSS memory usage ($instance) ‒ временной график, показывающий использование резидентной памяти экземпляра.
Persistent queue size ($instance) to ($url) ‒ временной график, показывающий размер постоянной очереди ожидающих образцов.
Samples rate ($instance) ‒ временной график, показывающий скорость ввода и вывода образцов для экземпляра.
Disk writes/reads ($instance) ‒ временной график, показывающий чтение/запись данных для экземпляра.

Настраиваемые параметры:

ds ‒ позволяет выбрать источник данных для использования в графиках.
job ‒ позволяет выбрать конкретную задачу для фильтрации метрик на дашборде.
instance ‒ позволяет выбрать конкретные экземпляры для отображения метрик.
url ‒ позволяет выбрать URL для удаленной записи данных.
adhoc ‒ позволяет добавить произвольные переменные для фильтрации данных.

VictoriaMetrics/vmalert

Данный дашборд предназначен для мониторинга системы управления оповещениями vmalert, которая входит в состав VictoriaMetrics. Он предоставляет обзор состояния и производительности различных правил оповещения и записи, а также ресурсных метрик, таких как использование памяти и процессоров. Дашборд позволяет пользователю отслеживать ошибки в выполнении правил, а также эффективность отправки оповещений в Alertmanager, что критически важно для обеспечения корректной работы системы оповещений.

Структура дашборда:

Stats:

Config update ‒ отображает статус последнего обновления конфигурации. Значение "Not Ok" указывает на наличие ошибок при обновлении.
Alerting rules ‒ показывает общее количество загруженных правил оповещения для выбранных экземпляров и групп.
Recording rules ‒ Отражает общее количество загруженных правил записи для выбранных экземпляров и групп.
Errors ‒ отображает общее количество ошибок, возникших в результате выполнения правил оповещения и записи.
No data errors ‒ отображает количество правил записи, которые не выдают данные, что может указывать на ошибочную конфигурацию.
Uptime ‒ временной график, показывающий статус доступности экземпляров vmalert.

Overview ($instance):

Alerts fired total ($instance) ‒ временной график, показывающий общее количество сработавших оповещений по каждому job.
Top $topk groups avg evaluation duration ($group) ‒ временной график, показывающий топ $topk-групп по времени выполнения оценок.
Rules execution rate ($instance) ‒ временной график, показывающий скорость выполнения запросов к Datasource.
Rules execution errors ($instance) ‒ временной график, показывающий частоту ошибок при выполнении правил.

Resource usage:

Memory usage % ($instance) ‒ временной график, показывающий процент использования памяти.
Memory usage ($instance) ‒ временной график, показывающий объем используемой памяти.
CPU usage %($instance) ‒ временной график, показывающий процент использования процессора.
CPU usage ($instance) ‒ временной график, показывающий максимальное количество используемых ядер.
Open FDs usage % ($instance) ‒ временной график, показывающий процент открытых дескрипторов файлов в операционной системе.
Goroutines ($instance) ‒ временной график, показывающий общее количество активных горутин.

Troubleshooting:

Non-default flags ‒ таблица использования нестандартных флагов в системе.
Missed evaluations ($instance) ‒ временной график, показывающий количество пропущенных оценок, что может вызвать проблемы с уведомлениями.
Restarts ($instance) ‒ отображает количество перезапусков по каждому заданию, позволяя выявлять периодические проблемы.

Alerting rules ($instance):

Top $topk active alerts ($group) ‒ временной график, показывающий топ $topk-активных правил срабатывания оповещений.
Errors ($group) ‒ временной график, показывающий события, когда выполнение правил привело к ошибкам.
Pending ($group) ‒ временной график, показывающий количество текущих ожидающих правил оповещения.
Errors rate to Alertmanager ‒ временной график, показывающий частоту ошибок при отправке оповещений в Alertmanager.
Requests rate to Alertmanager by job ($group) ‒ временной график, показывающий количество оповещений, отправляемых в Alertmanager.

Recording rules ($instance):

Top $topk rules by produced samples ($group) ‒ временной график, показывающий топ $topk-правил, генерирующих наибольшее количество образцов.
Rules with "0" produced samples ($group) ‒ временной график, показывающий правила, которые не генерируют образцы.
Errors ($group) ‒ временной график, показывающий ошибки, возникшие во время выполнения правил записи.

Remote write:

Datapoints send rate ($instance) ‒ временной график, показывающий скорость отправки данных через удаленные подключения.
Datapoints drop rate ($instance) ‒ временной график, показывающий количество точек данных, отбрасываемых при отправке.
Connections ($instance) ‒ временной график, показывающий количество установленных соединений с удаленными конечными точками.
Bytes write rate ($instance) ‒ временной график, показывающий глобальную скорость записи байтов через удаленные подключения.

Настраиваемые параметры:

ds ‒ позволяет выбрать источник данных для использования в графиках.
job ‒ позволяет выбрать конкретную задачу для фильтрации метрик на дашборд.
instance ‒ позволяет выбрать экземпляр, который будет использоваться для отображения метрик.
group ‒ позволяет выбрать группу, чтобы отобразить метрики только для определенных групп.
topk ‒ позволяет определить количество топовых метрик, отображаемых в некоторых панелях.
adhoc ‒ позволяет добавить произвольные переменные для фильтрации данных.

VictoriaMetrics/vmauth

Данный дашборд предоставляет обзор работы системы аутентификации для VictoriaMetrics (vmauth) версии 1.80.0 и выше. Он предназначен для мониторинга ключевых метрик, связанных с работой и эффективностью системы аутентификации. Интеграция с VM Agent позволяет отслеживать состояние и производительность, обеспечивая возможность настройки различных параметров для более детального анализа.

Структура дашборда:

Stats:

Uptime ‒ временной график, показывающий суммарное время работы, позволяя видеть зависимость от заданного интервала.
Config update ‒ показывает успешность последнего обновления конфигурации, где "Not Ok" указывает на ошибку при обновлении.
Requests rate ‒ отображает скорость обработки запросов в системе.
Users count ‒ показывает общее количество пользователей, определенных в конфигурационном файле.
Errors rate ‒ отображает частоту ошибок в обработке запросов.
Version ‒ таблица с версиями приложения.

Overview:

Requests rate ‒ временной график, отображающий скорость поступления запросов с разбивкой по пользователям.
User concurrent requests usage ‒ временной график, показывающий процент использования разрешенных параллельных запросов по пользователям.
Requests rejected rate ‒ временной график, отображающий скорость отклоненных запросов с указанием причины.
Concurrent limit reached ‒ отображает случаи, когда количество параллельных соединений достигло лимита, с рекомендациями по действиям.
User requests duration ‒ временной график, показывающий продолжительность запросов пользователей по квантилям.

Resource usage:

RSS memory % usage ($instance) ‒ временной график, показывающий процент использования резидентной памяти, критичный для производительности.
CPU % usage ($instance) ‒ временной график, показывающий процент использования CPU, показывающий загруженность системы.
Memory usage ($nstance) ‒ временной график, показывающий различные показатели использования памяти.
CPU ($instance) ‒ временной график, показывающий использование CPU и доступные лимиты.
TCP connections ($instance) ‒ временной график, показывающий количество активных TCP-соединений.
TCP connections rate ($instance) ‒ временной график, показывающий скорость нового подключения по TCP.
Open FDs ($instance) ‒ временной график, показывающий процент открытых файловых дескрипторов по отношению к установленному лимиту.
Goroutines ($instance) ‒ временной график, показывающий количество горутин в системе.
Threads ($instance) ‒ временной график, показывающий количество потоков.

Troubleshooting:

Non-default flags ‒ таблица, отображающая флаги, не установленные по умолчанию.
Log errors ‒ временной график, показывающий количество ошибок и предупреждений в логах, что может указывать на проблемы с соединением или неправильную конфигурацию.

Настраиваемые параметры:

ds ‒ позволяет выбрать источник данных для использования в графиках.
job ‒ позволяет выбрать конкретную задачу для фильтрации метрик на дашборде.
instance ‒ позволяет выбрать конкретные экземпляры для отображения метрик.
user ‒ позволяет выбрать пользователя из списка для дальнейшего анализа запросов.
adhoc ‒ позволяет добавить произвольные переменные для фильтрации данных.

VictoriaMetrics/cluster

Данный дашборд предназначен для мониторинга кластеров VictoriaMetrics версии 1.86.0 и выше. Он предоставляет обширные возможности для отслеживания производительности и состояния компонентов кластера, включая статистику о потреблении ресурсов, частоту запросов, метрики ингрессии данных и уровень ошибок. Дашборд поддерживает гибкость в выборе источников данных, что способствует глубокому анализу работы системы (рисунок 579).

Рисунок 579 ‒ VictoriaMetrics/cluster

Структура дашборда:

Stats:

Total datapoints ‒ отображает общее количество данных, хранящихся в системе.
Ingestion rate ‒ показывает скорость поступления данных, включая коэффициент репликации.
Read requests ‒ отображает частоту HTTP-запросов на чтение.
Available CPU ‒ показывает общее количество доступных процессоров для всех компонентов VictoriaMetrics.
Active series ‒ отображает количество активных временных рядов с новыми данными за последний час.
Disk space usage ‒ Общая информация о занимаемом дисковом пространстве.
Bytes per point ‒ Среднее значение дискового пространства, занимаемого одним временным рядом.
Available memory ‒ Общее количество доступной оперативной памяти для всех компонентов VictoriaMetrics.
Uptime ($job) ‒ временной график, показывающий время работы компонента.

Overview:

Datapoints ingestion rate ($instance) ‒ временной график, показывающий количество данных, поступающих в кластер в секунду.
Requests rate ($instance) ‒ временной график, показывающий частоту запросов различных метрик от VM, включая команды на вставку и чтение.
Active time series ($instance) ‒ временной график, показывающий количество активных временных рядов за последний час.
Query duration 0.99 quantile ($instance) ‒ временной график, показывающий время обработки запросов на чтение.
Requests error rate ($instance) ‒ временной график, показывающий уровень ошибок при выполнении запросов.
Logging rate ‒ временной график, показывающий частоту логирования сообщений по уровням.

Resource usage ($job):

RSS memory % usage ($instance) ‒ временной график, показывающий условие использования RSS-памяти (резервной).
RSS anonymous memory % usage ($instance) ‒ временной график, показывающий использование анонимной памяти.
CPU ($instance) ‒ временной график, показывающий использование процессора.
Disk writes/reads ($instance) ‒ временной график, показывающий данные по чтениям и записям на диск.
Open FDs usage % ($instance) ‒ временной график, показывающий процент используемых дескрипторов файлов.
Disk write/read calls ($instance) ‒ временной график, показывающий количество системных вызовов на чтение/запись.
Goroutines ($instance) ‒ временной график, показывающий использование горутин в приложении.
TCP connections ($instance) ‒ временной график, показывающий текущее количество TCP-соединений.
Threads ($instance) ‒ временной график, показывающий текущее количество потоков приложения.
CPU pressure ‒ временной график, показывающий нагрузки на CPU.
Memory pressure ‒ временной график, показывающий нагрузки на память.
IO pressure ‒ временной график, показывающий нагрузки на ввод-вывод.
CPU spent on GC ($instance) ‒ временной график, показывающий процент CPU, затраченный на сборку мусора.
TCP connections rate ($instance) ‒ временной график, показывающий частоту новых TCP соединений.
Go scheduling latency ‒ время, которое горутины (goroutines) проводят в состоянии ожидания запуска. Повышенные значения могут указывать на нехватку CPU или процессорное троттлирование.
Memory allocations rate ‒ временной график, показывающий скорость аллокации памяти.

Troubleshooting:

Churn rate ($instance) ‒ временной график, показывающий частоту создания новых рядов за последние 24 часа.
Slow inserts ‒ временной график, показывающий процент медленных вставок относительно общего числа вставок.
Storage in readonly status for vminsert ($instance) ‒ отображает статус доступности vmstorage.
Slow queries % ($instance) ‒ временной график, показывающий процент медленных запросов.
Assisted merges ($instance) ‒ временной график, показывающий количество вспомогательных слияний данных в хранилище.
Cache usage % by type ($instance) ‒ временной график, показывающий использование кеша по типам.
Cache miss ratio ($instance) ‒ временной график, показывающий отношение пропусков кеша.
Deduplication rate ($instance) ‒ показывает скорость устранения дубликатов данных в процессе обработки.
Samples dropped for last 1h ($instance) ‒ отображает количество отбрасываемых образцов данных с разбивкой по причинам.
Partial query results ($instance) ‒ отображает количество частичных результатов запросов из-за недоступности некоторых узлов.
Restarts ($instance) ‒ отображает количество рестартов процессов.

Interconnection ($job):

Rows ($instance) ‒ показывает количество переданных и полученных строк.
RPC errors ($instance) ‒ отображает ошибки связи между узлами.
Rows ($instance) rerouted to ‒ отображает количество переадресованных строк.
Pending ‒ временной график, показывающий краткое состояние текущих активных запросов.
Rows ($instance) rerouted from ‒ показывает количество строк, переадресованных с vmstorage.
RPC network usage ($instance) ‒ отображает сетевую активность, связанную с протоколами внутреннего RPC.

vmstorage ($instance):

Ingestion rate ($instance) ‒ временной график, показывающий скорость поступления данных в узлы хранилища.
CPU usage % ($instance) ‒ временной график, показывающий использование процессора для компонента хранилища.
Memory usage % ($instance) ‒ временной график, показывающий использование оперативной памяти для компонентов хранилища.
Concurrent selects ($instance) ‒ временной график, показывающий одновременное число запросов на чтение.
Concurrent flushes on disk ($instance) ‒ временной график, показывающий текущий и максимальный уровень параллельных операций записи на диск.
Merge speed ‒ временной график, показывающий скорость слияния данных на узлах хранения.
Active merges ($instance) ‒ временной график, показывающий максимальное количество слияний, происходящих в данный момент.
LSM parts max by type ($instance) ‒ временной график, показывающий максимальное количество частей LSM-дерева для разных типов данных.
Disk space usage % ($instance) ‒ временной график, показывающий процент использования дискового пространства.
Pending datapoints ($instance) ‒ временной график, показывающий количество отложенных для записи данных и индексных записей.
Disk space usage % by type ($instance) ‒ временной график, показывающий процент использования дискового пространства по типам (data points и indexdb).
Readonly mode ‒ отображает статус режима "только чтение" для хранилища.
Network usage ($instance) ‒ временной график, показывающий сетевую активность хранилища по чтению и записи.
Number of snapshots ‒ временной график, показывающий количество сделанных снимков данных.

vmselect ($instance):

Requests rate ($instance) ‒ временной график, показывающий частоту запросов, принятых узлами vmselect.
Concurrent selects ($instance) ‒ временной график, показывающий текущее и максимальное количество параллельных запросов.

vminsert ($instance):

Requests rate ($instance) ‒ временной график, показывающий частоту запросов для узлов vminsert.
Concurrent inserts ($instance) ‒ временной график, показывающий количество параллельных вставок.
CPU usage % ($instance) ‒ временной график, показывающий использование CPU vminsert.
Memory (anon) usage % ($instance) ‒ временной график, показывающий использование анонимной памяти процессом vminsert.
Storage connection saturation ($instance) ‒ временной график, показывающий уровень насыщения соединений между vminsert и vmstorage.
Storage reachability ($instance) ‒ временной график, показывающий доступность узлов vmstorage для vminsert.
Network usage: clients ($instance) ‒ временной график, показывающий сетевую нагрузку между vminsert и клиентами.
Network usage: vmstorage ($instance) ‒ временной график, показывающий сетевую нагрузка между vminsert и vmstorage.
Rows per insert ($instance) ‒ временной график, показывающий максимальное число рядов, вставляемых за один запрос.

Drilldown:

RSS memory usage ($instance) ‒ временной график, показывающий использование памяти (резервной).
Storage full ETA ($instance) ‒ временной график, показывающий приблизительное время, необходимое для достижения 100% дискового пространства.
RSS anonymous memory usage ($instance) ‒ временной график, показывающий использование анонимной памяти (резервной).
CPU usage ($instance) ‒ временной график, показывающий суммарное использование CPU.
Storage full ETA ($instance) ‒ временной график, показывающий приблизительное время до заполнения диска до 100% с учётом скорости вставки и компрессии.
Disk space usage ($instance) ‒ временной график, показывающий занятое дисковое пространство.
Disk space usage by type ($instance) ‒ временной график, показывающий использования дискового пространства по типу данных.
Logging rate ‒ временной график, показывающий скорость записи логов по уровням и местоположению.

Настраиваемые параметры:

ds ‒ позволяет выбрать источник данных для использования в графиках.
job ‒ позволяет выбрать конкретную задачу для фильтрации метрик на дашборде.
job_insert ‒ позволяет фильтровать выборку данных для операций вставки.
job_select ‒ позволяет фильтровать выборку данных для операций выборки.
job_storage ‒ позволяет фильтровать выборку данных для операций с хранилищем.
instance ‒ позволяет выбирать конкретные экземпляры для мониторинга.
adhoc ‒ позволяет добавить произвольные переменные для фильтрации данных.

VictoriaMetrics/Cluster Per Tenant Statistic

Данный дашборд предоставляет возможность отслеживать и анализировать данные по каждому арендатору. Основные возможности дашборда включают мониторинг скорости инжекции данных, частоты запросов чтения, активности временных рядов и использования дискового пространства. Это является важным инструментом для выявления узких мест, оптимизации работы кластера и поддержки принятия оперативных решений в области хранения и обработки данных.

Структура дашборда (не полностью использован функционал тенантов):

Statistics:

Datapoints ingestion rate ‒ временной график, показывающий количество точек данных, вставляемых в хранилище в секунду с разбивкой по accountID и projectID.
Read query rate ‒ временной график, показывающий частоту запросов, принимаемых узлами vmselect для каждого арендатора.
Active time series ‒ отображает количество активных временных рядов с новыми данными, вставленными в течение последнего часа. Высокое значение может указывать на замедление процесса инжекции данных.
Time spent on queries, seconds ‒ временной график, показывающий время, потраченное на выполнение запросов для каждого арендатора, в секунду.
Disk space usage (datapoints only) ‒ показывает объем дискового пространства, занимаемого только точками данных. Нет возможности различить статистику по арендаторам для indexdb.
New series over 24h ‒ отображает количество новых временных рядов, созданных за последние 24 часа.

Billing:

Ingestion Rate Top 5, by account id ‒ круговая диаграмма, показывающая топ-5 аккаунтов по скорости инжекции данных.
Read query rate, Top 5, by account id ‒ круговая диаграмма, показывающая топ-5 аккаунтов по частоте запросов чтения.
Time spent on queries, seconds, Top 5, by account id ‒ Топ-5 аккаунтов по времени, проведенному на запросах.
Active time series, Top 5, by account id ‒ круговая диаграмма, показывающая топ-5 аккаунтов по количеству активных временных рядов.
Disk space usage, Top 5, by account id ‒ круговая диаграмма, показывающая топ-5 аккаунтов по использованию дискового пространства.
New series over 24h, Top 5, by account id ‒ круговая диаграмма, показывающая топ-5 аккаунтов по количеству новых временных рядов, созданных за последние 24 часа.

Настраиваемые параметры:

ds ‒ позволяет выбрать источник данных для использования в графиках.
account ‒ позволяет выбрать фильтровать данные по идентификатору аккаунта. Пользователь может выбрать один или несколько аккаунтов для анализа.
project ‒ позволяет фильтровать данные по идентификатору проекта для выбранного аккаунта. Опция включает возможность выбора нескольких проектов.
adhoc ‒ позволяет добавить произвольные переменные для фильтрации данных.

VictoriaMetrics/operator

Данный дашборд позволяет отслеживать ключевые метрики производительности и состояния, относящиеся к управлению объектами в кластере Kubernetes. С помощью этого дашборда пользователи могут быстро оценить общее состояние системы, а также выявить и диагностировать проблемы на уровне контроллеров и ресурсов.

Структура дашборда:

Overview:

Version ‒ отображает текущую версию оператора.
CRD Objects count by controller ‒ панель типа "stat", показывающая количество объектов в кластере Kubernetes для каждого контроллера.
Uptime ‒ панель типа "stat", отображающая время работы системы на каждом экземпляре.
Reconciliation rate by controller ‒ панель типа "timeseries", отображающая скорость выполнения операций согласования для каждого контроллера.
Log message rate ‒ панель типа "timeseries", показывающая частоту логирования сообщений в зависимости от уровня логирования.
Prometheus Objects watchers ‒ отображает суммарное количество watchers, отслеживающих объекты Prometheus Operator (например, ServiceMonitors, PodMonitors) по неймспейсам.
Elected Leaders ‒ показывает количество экземпляров оператора, которые получили статус лидера. Значение выше 1 указывает на возможные проблемы с поведением операторов и требует проверки логов.
Active workers ‒ показывает количество активных воркеров, выполняющих reconcile задачи.
Prometheus Converter Watch events ‒ временной график количества событий обработки объектов Prometheus Operator оператором, разбитый по типам событий и типам объектов.

Troubleshooting:

reconcile errors by controller ‒ панель типа "timeseries", отображающая ошибки согласования по контроллерам. Ненулевые значения указывают на проблемы с определением объектов CR или с подключением к API Kubernetes.
throttled reconcilation events ‒ панель типа "timeseries", показывающая количество событий согласования, которые были ограничены. Это помогает снизить нагрузку на кластер Kubernetes и повысить производительность оператора.
Working queue depth ‒ панель типа "timeseries", отображающая количество объектов, ожидающих обработки в очереди. Ненулевые значения указывают на трудности оператора в обработке изменений объектов CR.
Reconcilation latency by controller ‒ панель типа "timeseries", показывающая задержку согласования для каждого контроллера. Высокая задержка может указывать на проблемы с производительностью оператора.
reconcile errors by controller ‒ временной график, показывающий количество ошибок reconcile для каждого контроллера. Ненулевые значения свидетельствуют о проблемах с определением CR объектов или о проблемах взаимодействия с Kubernetes API.
throttled reconciliation config events ‒ отображает количество событий конфигурации reconcile, которые были ограничены оператором для предотвращения перегрузки (по умолчанию до 5 событий на 2 секунды).
Working queue depth ‒ временной график, показывающий глубину очереди объектов, ожидающих обработки reconcile. Ненулевые значения могут указывать на недостаток ресурсов оператора.
Reconciliation latency by controller ‒ латентность выполнения reconcile операций (99-й процентиль) по контроллерам. Для stateful контроллеров латентность до 3 секунд допускается, для остальных ‒ выше 2 секунд может свидетельствовать о проблемах.
Rest client requests ‒ временной график, показывающий количество HTTP-запросов к Kubernetes API с разбивкой по методам и кодам ответов.
Concurrent reconcile ($instance) ‒ Показывает текущее и максимальное число одновременных reconcile задач для каждого инстанса оператора. Постоянное достижение максимума сигнализирует о необходимости увеличения ресурсов или параметров конфигурации.
Go scheduling latency ‒ Время, которое горутины (goroutines) проводят в состоянии ожидания запуска. Повышенные значения могут указывать на нехватку CPU или процессорное троттлирование.
rest client latency ‒ Латентность HTTP-запросов к Kubernetes API, разбитая по методам и API.

Resources:

Memory usage ($instance) ‒ временной график, показывающий использование памяти для каждого экземпляра, включая запрашиваемую системную память, память, находящуюся в использовании, и резидентную память.
CPU ($instance) ‒ временной график, показывающий использование CPU для каждого экземпляра.
Goroutines ($instance) ‒ временной график, показывающий количество горутин для каждого экземпляра.
GC duration ($instance) ‒ временной график, показывающий среднюю длительность сборки мусора для каждого экземпляра.

Настраиваемые параметры:

ds ‒ позволяет выбрать источник данных для использования в графиках.
job ‒ позволяет выбрать конкретную задачу для фильтрации метрик на дашборде.
instance ‒ позволяет выбрать конкретные экземпляры для отображения метрик.
version ‒ позволяет выбрать версию приложения для анализа метрик.

VictoriaLogs/cluster

Дашборд предназначен для мониторинга кластера версии VictoriaLogs v1.22.0 и выше. Он предоставляет обзор статистики и показателей производительности системы логирования, включая количество записей, скорость их обработки, использование ресурсов и метрики производительности. Основные возможности дашборда включают отслеживание инджестирования логов, использования дискового пространства, доступных ресурсов (CPU и памяти) и анализ производительности запросов (рисунок 580).

Рисунок 580 ‒ VictoriaLogs/cluster

Структура дашборда:

Stats:

Total log entries ‒ отображает общее количество записей логов в хранилище.
Ingested logs 24h ‒ отображает показатель накопленного количества записей логов, инджестированных за последние 24 часа.
Disk space usage ‒ отображает общий объем используемого дискового пространства, учитывая все сжатые записи логов и размер индексов.
Insert req/s ‒ отображает среднюю скорость инджестирования записей логов.
Available CPU ‒ отображает общее количество доступных процессоров для процесса VictoriaLogs.
Ingested bytes 24h ‒ отображает показатель накопленного общего объема данных, инджестированных за последние 24 часа, учитываемый до сжатия.
Compression ratio ‒ отображает отношение между оригинальным размером данных и сжатыми данными, хранящимися на диске.
Read req/s ‒ отображает скорость HTTP-запросов на чтение.
Available memory ‒ отображает общий объем доступной памяти для процесса VictoriaLogs.
Uptime ($job) ‒ отображает показатель времени работы для конкретной задачи.

Overview:

Logs ingestion rate ‒ временной график, показывающий скорость инджестирования в количестве записей и байтов в секунду.
Requests rate ‒ временной график, показывающий частоту HTTP-запросов по различным путям.
Requests error rate ‒ временной график, показывающий частоту ошибок HTTP-запросов.
Query duration 0.99 quantile ‒ временной график, показывающий время выполнения запросов для 99% наименьших значений.
Disk space usage ‒ временной график, показывающий объема дискового пространства, занятого всеми данными в хранилище.
Logging rate ‒ временной график, показывающий скорость логирования сообщений по уровням.

Troubleshooting:

Restarts ‒ отображает количество перезапусков для задачи.
Log stream churn rate ‒ временной график, показывающий число новых потоков логов, созданных за последние 24 часа.
Non-default flags ‒ Таблица с флагами, установленными не по умолчанию значения.
Logs dropped for last 1h ‒ временной график, показывающий количество записей логов, игнорируемых или отклоняемых при инджестировании.

Resource usage:

RSS memory % usage ($instance) ‒ временной график, показывающий процент использованной оперативной памяти (resident memory) процесса.
CPU % usage ($instance) ‒ временной график, показывающий процент использования CPU процессом.
RSS anonymous memory % usage ($instance) ‒ временной график, показывающий долю памяти, выделенной самим процессом.
CPU pressure ‒ временной график, показывающий нагрузки на CPU.
Memory pressure ‒ временной график, показывающий нагрузки на память.
Disk writes/reads ($instance) ‒ временной график, показывающий количество прочитанных и записанных байтов на уровень хранения.
Open FDs ($instance) ‒ временной график, показывающий процент открытых файловых дескрипторов по отношению к лимиту, установленному в ОС.
Disk write/read calls ($instance) ‒ временной график, показывающий количество системных вызовов чтения/записи.
Goroutines ($instance) ‒ временной график, показывающий текущее количество горутин.
IO pressure ‒ временной график, показывающий нагрузки на ввод-вывод.
Threads ($instance) ‒ временной график, показывающий текущее количество потоков.
TCP connections ($instance) ‒ временной график, показывающий количество активных TCP-соединений.
CPU spent on GC ($instance) ‒ временной график, показывающий процент CPU, затраченный на сборку мусора.
TCP connections rate ($instance) ‒ временной график, показывающий частоту новых TCP-соединений.
Memory allocations rate ‒ временной график, показывающий скорость аллокации памяти.
Go scheduling latency ‒ график, показывающий время проведенное горутинами в состоянии ожидания до начала выполнения.

Настраиваемые параметры:

ds ‒ позволяет выбрать источник данных для использования в графиках.
job ‒ позволяет выбрать конкретную задачу для фильтрации метрик на дашборде.
instance ‒ позволяет выбрать инстанс, отслеживаемого в рамках задачи.
version ‒ позволяет выбрать конкретную версию приложения для анализа.
adhoc ‒ позволяет добавить произвольные переменные для фильтрации данных.

VictoriaLogs/single-node

Дашборд представляет собой инструмент для мониторинга производительности и состояния хранения логов в VictoriaLogs. Данный дашборд предоставляет пользователю все необходимые метрики для оценки состояния системы и ее ресурсов, включая количество обрабатываемых логов, использование дискового пространства, а также текущую загрузку CPU и памяти. Он позволяет оперативно выявлять и диагностировать проблемы, обеспечивая высокую доступность и надежность логирования (рисунок 581).

Рисунок 581 ‒ VictoriaLogs/single-node

Структура дашборда:

Stats:
Total log entries ‒ отображает общее количество записей логов в хранилище.
Ingested logs 24h ‒ отображает общее количество записей логов, загруженных за последние 24 часа.
Disk space usage ‒ отображает общий объем используемого дискового пространства, учитывающий сжатые записи логов и размер индекса.
Insert req/s ‒ отображает среднюю скорость загрузки записей логов.
Available CPU ‒ отображает общее количество доступных процессоров для процесса VictoriaLogs.
Ingested bytes 24h ‒ отображает общее количество байт, загруженных за последние 24 часа до сжатия.
Compression ratio ‒ отображает соотношение между оригинальным размером данных и сжатым размером, хранящимся на диске.
Read req/s ‒ показывает скорость HTTP-запросов на чтение.
Available memory ‒ отображает общий объем доступной памяти для процесса VictoriaLogs.
Version ‒ отображает ссылку на последние релизы VictoriaLogs.

Overview:

Logs ingestion rate ‒ временной график, показывающий скорость загрузки логов в записях и байтах в секунду.
Requests rate ‒ временной график, показывающий скорость HTTP-запросов по различным путям.
Requests error rate ‒ временной график, показывающий частоту ошибок запросов.
Query duration 0.99 quantile ‒ временной график, показывающий время выполнения запросов по 99-му процентилю.
Disk space usage ‒ временной график, показывающий объем дискового пространства, занятого всеми данными в хранилище.
Logging rate ‒ временной график, показывающий скорость логирования сообщений по уровням.

Troubleshooting:

Restarts ‒ отображает количество перезапусков по каждому заданию, позволяя выявлять периодические проблемы.
Log stream churn rate ‒ временной график, показывающий количество созданных новых потоков логов за последние 24 часа.
Non-default flags ‒ Таблица с флагами, установленными на значения, отличные от значений по умолчанию.
Logs dropped for last 1h ‒ временной график, показывающий количество записей логов, которые были проигнорированы или сброшены при вставке.

Resource usage:

RSS memory % usage ($instance) ‒ временной график, показывающий процент использованной памяти (resident).
CPU % usage ($instance) ‒ временной график, показывающий процент использования CPU.
RSS anonymous memory % usage ($instance) ‒ временной график, показывающий процент анонимной памяти, выделенной процессом.
CPU ($instance) ‒ временной график, показывающий использование CPU и доступные ядра.
Memory usage ($instance) ‒ временной график, показывающий использование памяти в различных разрезах.
CPU pressure ‒ временной график, показывающий давление на CPU на основе информации о давлении (PSI).
Memory pressure ‒ временной график, показывающий давление на память по данным PSI.
Disk writes/reads ($instance) ‒ временной график, показывающий количество байт, считываемых/записываемых из/в хранилище.
Goroutines ($instance) ‒ временной график, показывающий общее количество горутин (независимые функции, которые выполняются параллельно).
Disk write/read calls ($instance) ‒ временной график, показывающий количество вызовов системных вызовов чтения/записи.
Threads ($instance) ‒ временной график, показывающий общее количество потоков.
IO pressure ‒ временной график, показывающий давление на ввод-вывод на основе PSI.
TCP connections rate ($instance) ‒ временной график, показывающий скорость установленных TCP-соединений.
TCP connections ($instance) ‒ временной график, показывающий общее количество текущих TCP-соединений.
Go scheduling latency ‒ График, показывающий время, проведенное горутиной в состоянии ожидания.
Open FDs ($instance) ‒ временной график, показывающий процент открытых файловых дескрипторов по сравнению с установленным лимитом.

Настраиваемые параметры:

ds ‒ позволяет выбрать источник данных для использования в графиках.
job ‒ позволяет выбрать конкретную задачу для фильтрации метрик на дашборде.
instance ‒ позволяет выбрать конкретные экземпляры для отображения метрик.
version ‒ позволяет выбрать конкретную версию приложения для анализа.
adhoc ‒ позволяет добавить произвольные переменные для фильтрации данных.

Прикладной мониторинг

Требования к приложениям

При развертывании клиентских приложений, требующих сбор метрик, необходимо соблюдение следующих условий:

Должен быть установлен один из перечисленных ниже ресурсов, описывающих параметры сбора метрик с приложения:
PodMonitor или ServiceMonitor (Prometheus Operator);
VMPodScrape или VMServiceScrape (VictoriaMetrics Operator).
Приложение должно быть инструментировано библиотеками мониторинга Prometheus/VictoriaMetrics/Otel и отдавать метрики в формате OpenMetrics.

Чтобы настроить сбор метрик с клиентских приложений, нужно выполнить шаги инструкции по настройке прикладного мониторинга в Комплексе.

Настройка прикладного мониторинга

Если в кластере включен Компонент управления модуля мониторинга (Victoria Metrics Agent) (shturval-metrics-collector), можно настроить прикладной мониторинг (мониторинг клиентских приложений). Для этого необходимо установить экземпляр VMAgent в неймспейсе user-monitoring для сбора прикладных метрик.

Для проверки прикладного мониторинга можно использовать любое приложение, инструментированное метриками в формате OpenMetrics. Например, можно воспользоваться демонстрационным приложением от VictoriaMetrics. Подробнее см. п. Проверка прикладного мониторинга.

Важно ‒ Для корректного сбора метрик с клиентских приложений должны выполняться требования.

Чтобы настроить прикладной мониторинг приложений, необходимо выполнить следующие шаги:

в графическом интерфейсе кластера перейти в раздел "Неймспейсы" (рисунок 582), создать неймспейс user-monitoring, в котором будет развернут экземпляр VMAgent:
с помощью импорта манифестов загрузить в кластер манифесты объектов VMSingle и VMAgent, применяя свои значения параметров, для сбора и хранения локально прикладных метрик. Пример VMSingle (параметры описаны в таблице 93):

apiVersion: operator.victoriametrics.com/v1beta1
kind: VMSingle
metadata:
name: user-monitoring # Имя не может быть изменено
namespace: user-monitoring
spec:
storage:
volumeClaimTemplate:
spec:
resources:
requests:
storage: <ваше значение параметра>

Рисунок 582 ‒ Раздел "Неймспейсы"

Пример VMAgent (параметры описаны в таблице 94):

apiVersion: operator.victoriametrics.com/v1beta1
kind: VMAgent
metadata:
labels:
app: vmagent-user-monitoring # Имя не может быть изменено
app.kubernetes.io/component: monitoring
app.kubernetes.io/name: user-monitoring
name: user-monitoring
namespace: user-monitoring
spec:
externalLabels:
cluster: client-cluster
extraArgs:
<ваше значение параметров>
logFormat: <ваше значение параметра>
logLevel: <ваше значение параметра>
nodeScrapeNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
podScrapeNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
port: "8429"
probeNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
remoteWrite:
‒ url: <ваше значение параметра>
replicaCount: <ваше значение параметра>
resources:
limits:
cpu: <ваше значение параметра>
memory: <ваше значение параметра>
requests:
cpu: <ваше значение параметра>
memory: <ваше значение параметра>
scrapeConfigNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
scrapeInterval: <ваше значение параметра>
securityContext:
fsGroup: 2000
runAsGroup: 2000
runAsNonRoot: true
runAsUser: 1000
serviceAccountName: vmagent-user-monitoring
serviceScrapeNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
staticScrapeNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
tolerations:
‒ effect: NoSchedule
key: node-role.kubernetes.io/infra
operator: Exists
vmAgentExternalLabelName: ""

с помощью импорта манифестов загрузить в кластер ресурсы ServiceAccount, ClusterRole, ClusterRoleBinding, как приведено далее (без изменения параметров).

apiVersion: v1
kind: ServiceAccount
metadata:
labels:
app: vmagent-user-monitoring
app.kubernetes.io/component: monitoring
app.kubernetes.io/name: user-monitoring
name: vmagent-user-monitoring
namespace: user-monitoring
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRole
metadata:
labels:
app: vmagent-user-monitoring
app.kubernetes.io/component: monitoring
app.kubernetes.io/name: user-monitoring
name: vmagent-user-monitoring
rules:
- apiGroups: ["discovery.k8s.io"]
resources: ["endpointslices"]
verbs: ["get", "list", "watch"]
- apiGroups: [""]
resources: ["services", "endpoints", "pods"]
verbs: ["get", "list", "watch"]
- apiGroups: ["networking.k8s.io"]
resources: ["ingresses"]
verbs: ["get", "list", "watch"]
- apiGroups: [""]
resources: ["nodes", "nodes/proxy", "nodes/metrics"]
verbs: ["get", "list", "watch"]
- apiGroups: [""]
resources: ["configmaps","secrets"]
verbs: ["get", "list", "watch"]
- nonResourceURLs: ["/metrics"]
verbs: ["get"]
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
labels:
app: vmagent-user-monitoring
app.kubernetes.io/component: monitoring
app.kubernetes.io/name: user-monitoring
name: vmagent-user-monitoring
roleRef:
apiGroup: rbac.authorization.k8s.io
kind: ClusterRole
name: vmagent-user-monitoring
subjects:
‒ kind: ServiceAccount
name: vmagent-user-monitoring
namespace: user-monitoring

Проверка прикладного мониторинга

Если в кластере настроен прикладной мониторинг, можно проверить его работу с помощью любого приложения с метриками в формате OpenMetrics. В инструкции используется демо-приложение от VictoriaMetrics.

Чтобы проверить мониторинг с помощью приложения VictoriaMetrics, потребуется:

хост/машина/компьютер с установленными утилитами git и docker. Это необходимо для скачивания исходных кодов и сборки образа приложения;
локальный или публичный Registry, для размещения собранного образа приложения. В качестве Registry можно использовать локальное зеркало в закрытом контуре или hub.docker.com в открытой установки.

Для проверки нужно:

перейти в ваш кластер в раздел "Неймспейсы", создать неймспейс demo-app, в котором будет развернуто демонстрационное приложение VictoriaMetrics demo-app (рисунок 583);
в интерфейсе командной строки подключиться к кластеру и выполнить команды по загрузке приложения, сбора его в контейнер и отправки в репозиторий локального зеркала, используя свои значения параметров.

Пример команды (параметры описаны в таблице 95):

git clone https://github.com/VictoriaMetrics/demo-app
cd demo-app/
REGISTRY=<ВАШЕ ЗНАЧЕНИЕ ПАРАМЕТРА> TAG=<ВАШЕ ЗНАЧЕНИЕ ПАРАМЕТРА> make docker-push

Рисунок 583 ‒ Создание неймспейса demo-app

в графическом интерфейсе с помощью импорта манифестов загрузить в кластер Deployment, Service, VMServiceScrape, как приведено далее (без изменения параметров).

Пример манифеста развертывания демо-приложения VictoriaMetrics:

apiVersion: apps/v1
kind: Deployment
metadata:
name: demo-app
namespace: demo-app
labels:
app.kubernetes.io/name: demo-app
spec:
replicas: 1
selector:
matchLabels:
app.kubernetes.io/name: demo-app
template:
metadata:
labels:
app.kubernetes.io/name: demo-app
spec:
containers:
‒ name: app
image: r.shturval.tech/victoriametrics/demo-app:1.2
apiVersion: v1
kind: Service
metadata:
name: demo-app
namespace: demo-app
labels:
app.kubernetes.io/name: demo-app
spec:
selector:
app.kubernetes.io/name: demo-app
ports:
‒ port: 8080
name: http
apiVersion: operator.victoriametrics.com/v1beta1
kind: VMServiceScrape
metadata:
name: demo-app-service-scrape
namespace: demo-app
spec:
endpoints:
‒ port: http
selector:
matchLabels:
app.kubernetes.io/name: demo-app

Перенаправление прикладных метрик во внешнее хранилище

При настройке прикладного мониторинга метрики для хранения отправляются в локальный экземпляр VictoriaMetrics (манифест VMSinlge), который разворачивается в неймспейсе user-monitoring клиентского кластера. При необходимости можно перенаправить прикладные метрики во внешнее хранилище.

Для этого в VMAgent нужно заменить или добавить URL внешнего хранилища в разделе spec.remoteWrite.

Важно ‒ Внешнее хранилище должно поддерживать протокол Prometheus/VictoriaMetrics Remote Write.

Пример VMAgent (параметры описаны в таблице 96):

apiVersion: operator.victoriametrics.com/v1beta1
kind: VMAgent
metadata:
labels:
app: vmagent-user-monitoring # Имя не может быть изменено
app.kubernetes.io/component: monitoring
app.kubernetes.io/name: user-monitoring
name: user-monitoring
namespace: user-monitoring
spec:
externalLabels:
cluster: client-cluster
extraArgs:
<ваше значение параметров>
logFormat: <ваше значение параметра>
logLevel: <ваше значение параметра>
nodeScrapeNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
podScrapeNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
port: "8429"
probeNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
remoteWrite:
‒ url: <ваше значение параметра> # Здесь можно указать URL внешнего хранилища VictoriaMetrics
replicaCount: <ваше значение параметра>
resources:
limits:
cpu: <ваше значение параметра>
memory: <ваше значение параметра>
requests:
cpu: <ваше значение параметра>
memory: <ваше значение параметра>
scrapeConfigNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
scrapeInterval: <ваше значение параметра>
securityContext:
fsGroup: 2000
runAsGroup: 2000
runAsNonRoot: true
runAsUser: 1000
serviceAccountName: vmagent-user-monitoring
serviceScrapeNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
staticScrapeNamespaceSelector:
matchExpressions:
‒ key: shturval.tech/system-namespace
operator: DoesNotExist
tolerations:
‒ effect: NoSchedule
key: node-role.kubernetes.io/infra
operator: Exists
vmAgentExternalLabelName: ""