PSKE - Einfaches Monitoring

Jeder PSKE-Cluster enthält einen integrierten Monitoring-Stack bestehend aus Prometheus zur Metrikenerfassung und Grafana zur Visualisierung. Alle Dashboards beziehen sich auf den Gardener-Shoot-Kontext — d.h. auf den Kubernetes-Cluster samt seiner Control Plane.

Zugriff auf Grafana

Wenn das Monitoring für den Cluster aktiviert ist, sind die Grafana-Zugangsdaten direkt im PSKE-Dashboard verfügbar. Über das jeweilige Projekt (1) und den entsprechenden Cluster (2) gelangt man zu den Zugangsdaten (3) und dem direkten Link (4). Die Zugangsdaten lassen sich per Klick kopieren (5).

Nach dem Login öffnet sich die Grafana-Oberfläche. Über die Lupe (1) wird die Liste der vorkonfigurierten Dashboards (2) aufgerufen.

Verfügbare Dashboards

API Server

Dashboards zum Kubernetes API Server des Shoots.

DashboardBeschreibung
API ServerÜberblick über Anfragen, Fehlerquoten und Latenz des API Servers.
API Server (Admission Details)Detailansicht der Admission-Controller-Laufzeiten und Fehler.
API Server (Request Details)Aufschlüsselung der API-Anfragen nach Verb, Ressource und Statuscode.
API Server (Storage Details)Metriken zur etcd-Datenbanknutzung aus Sicht des API Servers.
API Server (Watch Details)Watch-Verbindungen und deren Last auf den API Server.
API Server ProxyMetriken zum API-Server-Proxy (Istio-basiert, Shoot-Netzwerk).
API Server Request Duration and Response SizeLatenz-Histogramme und Antwortgrößen aller API-Anfragen.
Kubernetes API Server DetailsErweiterte Metriken zu Goroutinen, Workqueues und internen API-Server-Komponenten.
Kubernetes API Server WatchesAnzahl und Latenz aktiver Watch-Verbindungen zum API Server.

Control Plane

Übersicht und Status der Gardener-verwalteten Control-Plane-Komponenten.

DashboardBeschreibung
Cluster OverviewGesamtstatus des Clusters: Node-Anzahl, Pod-Anzahl, Ressourcenauslastung.
Kubernetes Control Plane StatusVerfügbarkeit und Gesundheit aller Control-Plane-Komponenten.
Controlplane Logs DashboardZentrale Log-Ansicht aller Control-Plane-Komponenten (Seed-seitig).
Shoot control plane resource usage by owner and containerCPU- und RAM-Verbrauch aller Control-Plane-Container aufgeschlüsselt nach Owner und Container-Name.
Machine Controller ManagerStatus und Metriken des Gardener Machine Controller Managers (Node-Lifecycle).

ETCD

DashboardBeschreibung
ETCDÜbersicht über den etcd-Cluster: Latenz, Leader-Status, DB-Größe.
ETCD Cluster DetailsDetailmetriken zu Raft, Netzwerk und Peer-Kommunikation.
ETCD Backup and RestoreStatus und Dauer der etcd-Backups sowie Restore-Ereignisse.
ETCD Compaction JobMetriken zum etcd-Compaction-Job (Bereinigung alter Revisionen).

Workloads und Nodes

Dashboards für Anwendungen und Nodes im Shoot-Cluster.

DashboardBeschreibung
Node DetailsCPU, RAM, Disk und Netzwerk einzelner Nodes.
Node/Worker Pool OverviewRessourcenauslastung und Status aller Worker Pools.
Kubernetes PodsStatus, Restarts und Ressourcenverbrauch aller Pods (Seed- und Shoot-Kontext).
Kubernetes DeploymentsRollout-Status, Replica-Anzahl und Verfügbarkeit aller Deployments.
Kubernetes DaemonSetsStatus und Rollout-Fortschritt aller DaemonSets im Shoot.
Kubernetes StatefulSetsStatus und Replica-Anzahl aller StatefulSets (Seed- und Shoot-Kontext).
Container ImagesÜbersicht aller genutzten Container-Images im Shoot-Cluster.

Netzwerk

DashboardBeschreibung
DNSCoreDNS-Metriken: Anfragerate, Fehler und Latenz.
Reversed VPN OpenVPN Server (HA)Status und Metriken des internen OpenVPN-Servers für die Shoot-Control-Plane-Konnektivität.

Cilium (CNI)

Verfügbar wenn Cilium als CNI-Plugin konfiguriert ist.

DashboardBeschreibung
Cilium Agent MetricsMetriken der Cilium-Agents auf den Nodes: Policy-Enforcement, Verbindungsstatus.
Cilium Hubble MetricsNetzwerk-Flow-Metriken aus Hubble: Verbindungen, Drops, DNS.
Cilium Operator MetricsStatus und Metriken des Cilium Operators.

Controller Runtime

Dashboards für Kubernetes-Controller, die das controller-runtime-Framework nutzen (u.a. Gardener-interne Controller).

DashboardBeschreibung
Controller Runtime / ControllersÜbersicht aller aktiven Controller und ihrer Reconcile-Raten.
Controller Runtime / Controller DetailsDetailmetriken zu Queue-Längen und Fehlerquoten einzelner Controller.
Controller Runtime / WebhooksÜbersicht aller registrierten Admission Webhooks.
Controller Runtime / Webhook DetailsLatenz und Fehlerquoten einzelner Webhooks.
Controller Runtime / Client-GoMetriken der client-go-Bibliothek: Cache, Requests und Throttling.

Monitoring-Infrastruktur

DashboardBeschreibung
PrometheusInterner Status der Prometheus-Instanz: Scrape-Dauer, TSDB-Größe, Regeln.