PSKE - Einfaches Monitoring
3 Minuten Lesezeit
Jeder PSKE-Cluster enthält einen integrierten Monitoring-Stack bestehend aus Prometheus zur Metrikenerfassung und Grafana zur Visualisierung. Alle Dashboards beziehen sich auf den Gardener-Shoot-Kontext — d.h. auf den Kubernetes-Cluster samt seiner Control Plane.
Zugriff auf Grafana
Wenn das Monitoring für den Cluster aktiviert ist, sind die Grafana-Zugangsdaten direkt im PSKE-Dashboard verfügbar. Über das jeweilige Projekt (1) und den entsprechenden Cluster (2) gelangt man zu den Zugangsdaten (3) und dem direkten Link (4). Die Zugangsdaten lassen sich per Klick kopieren (5).

Nach dem Login öffnet sich die Grafana-Oberfläche. Über die Lupe (1) wird die Liste der vorkonfigurierten Dashboards (2) aufgerufen.

Verfügbare Dashboards
API Server
Dashboards zum Kubernetes API Server des Shoots.
| Dashboard | Beschreibung |
|---|---|
| API Server | Überblick über Anfragen, Fehlerquoten und Latenz des API Servers. |
| API Server (Admission Details) | Detailansicht der Admission-Controller-Laufzeiten und Fehler. |
| API Server (Request Details) | Aufschlüsselung der API-Anfragen nach Verb, Ressource und Statuscode. |
| API Server (Storage Details) | Metriken zur etcd-Datenbanknutzung aus Sicht des API Servers. |
| API Server (Watch Details) | Watch-Verbindungen und deren Last auf den API Server. |
| API Server Proxy | Metriken zum API-Server-Proxy (Istio-basiert, Shoot-Netzwerk). |
| API Server Request Duration and Response Size | Latenz-Histogramme und Antwortgrößen aller API-Anfragen. |
| Kubernetes API Server Details | Erweiterte Metriken zu Goroutinen, Workqueues und internen API-Server-Komponenten. |
| Kubernetes API Server Watches | Anzahl und Latenz aktiver Watch-Verbindungen zum API Server. |
Control Plane
Übersicht und Status der Gardener-verwalteten Control-Plane-Komponenten.
| Dashboard | Beschreibung |
|---|---|
| Cluster Overview | Gesamtstatus des Clusters: Node-Anzahl, Pod-Anzahl, Ressourcenauslastung. |
| Kubernetes Control Plane Status | Verfügbarkeit und Gesundheit aller Control-Plane-Komponenten. |
| Controlplane Logs Dashboard | Zentrale Log-Ansicht aller Control-Plane-Komponenten (Seed-seitig). |
| Shoot control plane resource usage by owner and container | CPU- und RAM-Verbrauch aller Control-Plane-Container aufgeschlüsselt nach Owner und Container-Name. |
| Machine Controller Manager | Status und Metriken des Gardener Machine Controller Managers (Node-Lifecycle). |
ETCD
| Dashboard | Beschreibung |
|---|---|
| ETCD | Übersicht über den etcd-Cluster: Latenz, Leader-Status, DB-Größe. |
| ETCD Cluster Details | Detailmetriken zu Raft, Netzwerk und Peer-Kommunikation. |
| ETCD Backup and Restore | Status und Dauer der etcd-Backups sowie Restore-Ereignisse. |
| ETCD Compaction Job | Metriken zum etcd-Compaction-Job (Bereinigung alter Revisionen). |
Workloads und Nodes
Dashboards für Anwendungen und Nodes im Shoot-Cluster.
| Dashboard | Beschreibung |
|---|---|
| Node Details | CPU, RAM, Disk und Netzwerk einzelner Nodes. |
| Node/Worker Pool Overview | Ressourcenauslastung und Status aller Worker Pools. |
| Kubernetes Pods | Status, Restarts und Ressourcenverbrauch aller Pods (Seed- und Shoot-Kontext). |
| Kubernetes Deployments | Rollout-Status, Replica-Anzahl und Verfügbarkeit aller Deployments. |
| Kubernetes DaemonSets | Status und Rollout-Fortschritt aller DaemonSets im Shoot. |
| Kubernetes StatefulSets | Status und Replica-Anzahl aller StatefulSets (Seed- und Shoot-Kontext). |
| Container Images | Übersicht aller genutzten Container-Images im Shoot-Cluster. |
Netzwerk
| Dashboard | Beschreibung |
|---|---|
| DNS | CoreDNS-Metriken: Anfragerate, Fehler und Latenz. |
| Reversed VPN OpenVPN Server (HA) | Status und Metriken des internen OpenVPN-Servers für die Shoot-Control-Plane-Konnektivität. |
Cilium (CNI)
Verfügbar wenn Cilium als CNI-Plugin konfiguriert ist.
| Dashboard | Beschreibung |
|---|---|
| Cilium Agent Metrics | Metriken der Cilium-Agents auf den Nodes: Policy-Enforcement, Verbindungsstatus. |
| Cilium Hubble Metrics | Netzwerk-Flow-Metriken aus Hubble: Verbindungen, Drops, DNS. |
| Cilium Operator Metrics | Status und Metriken des Cilium Operators. |
Controller Runtime
Dashboards für Kubernetes-Controller, die das controller-runtime-Framework nutzen (u.a. Gardener-interne Controller).
| Dashboard | Beschreibung |
|---|---|
| Controller Runtime / Controllers | Übersicht aller aktiven Controller und ihrer Reconcile-Raten. |
| Controller Runtime / Controller Details | Detailmetriken zu Queue-Längen und Fehlerquoten einzelner Controller. |
| Controller Runtime / Webhooks | Übersicht aller registrierten Admission Webhooks. |
| Controller Runtime / Webhook Details | Latenz und Fehlerquoten einzelner Webhooks. |
| Controller Runtime / Client-Go | Metriken der client-go-Bibliothek: Cache, Requests und Throttling. |
Monitoring-Infrastruktur
| Dashboard | Beschreibung |
|---|---|
| Prometheus | Interner Status der Prometheus-Instanz: Scrape-Dauer, TSDB-Größe, Regeln. |