Kurzbeschreibung:

Zu den zentralen Aspekten der Bereitstellung einer BI-Plattform gehört ein übergreifender Healthcheck der BI-Systemkomponenten und -Tools sowie eine fachliche Prüfung der betroffenen Prozesse in Daten-Bewirtschaftung und -Transformation. Basierend auf einem Monitoring Stack aus Grafana und Prometheus definiert die PTA sowohl technische als auch fachliche KPIs und erstellt geeignete Dashboards. Dabei wird nach einem Roll-Up Prinzip von zusammenhängenden, detaillierten KPIs auf den Zustand der übergeordneten Komponenten geschlossen.

Ergänzung:

Auf der untersten Ebene werden Dashboards mit detaillierten Panels und dem zeitlichen Verlauf für die technischen KPIs wie die Auslastung von CPU, Arbeitsspeicher, Laufwerken, etc. abgebildet. Bereitgestellt werden die technischen Metriken durch einen Node Exporter, der auf sämtlichen VMs der BI-Plattform installiert ist. Außerdem werden Informationen über die fachlichen Prozesse in Form von ETL-Jobs dargestellt. Es wird ebenfalls die Client-Seite im Sinne der HTTP-Checks und der Auflösung von DNS-Namen überwacht. Auf der Basis von definierten Metriken und Schwellenwerten wird pro Systemkomponente gekapselt eine Kachel erstellt, die den aktuellen Zustand in den Farben grün, gelb oder rot darstellt. Auf oberster Ebene repräsentiert genau eine Kachel den Zustand der gesamten Plattform basierend auf den Zuständen der dazugehörigen Plattformkomponenten. Neben der grafischen Anzeige für die Schwellenwerte in Grafana wird die Alarmierung auf der Basis der Prometheus Alerting Rules aktiviert.

Fachbeschreibung:

Die Komponenten der BI-Plattform werden größtenteils in einer Cloud betrieben und können auf Betriebssystemebene bereits überwacht werden. Zudem kann ein Email-Alerting für die entsprechenden Metriken konfiguriert werden. Da jedoch eine verteilte und heterogene Überwachung keinen Aufschluss über den Zustand der voneinander abhängigen Tools und Prozesse gibt, werden zusammenhängende Dashboards definiert. Damit werden die Auswirkungen bestimmter Ausfälle oder Überlastungen rechtzeitig erkannt und behoben.