Einfache Sicht auf ganze Topologien bzw. IT-Verbünde Umbrella-Monitoring mit Flowcharting für Grafana

Ein Gastbeitrag von Gerd Herbertz *

Das Thema IT-Monitoring wird im Kontext zunehmender Governance und Compliance-Anforderungen immer wichtiger. Dieser Beitrag beschreibt, wie sich mit dem Grafana-Plug-in Flowcharting ganze IT-Topologien einfach dokumentieren und überwachen lassen.

Firma zum Thema

Der Begriff „Umbrella-Monitoring“ beschreibt einen ganzheitlichen Ansatz für ein übergeordnetes Monitoring-System.
Der Begriff „Umbrella-Monitoring“ beschreibt einen ganzheitlichen Ansatz für ein übergeordnetes Monitoring-System.
(Bild: Sowmya / Pexels )

IT-Monitoring in der Praxis

Innerhalb der meisten IT-Landschaften – in der Regel bei mittelständischen und Großunternehmen – finden sich IT-Lösungen zur Überwachung. Darüber hinaus werden auch des Öfteren IT-Services durch externe Dienstleister erbracht. Dies führt dann zu einer Mehrzahl von Insellösungen, die innerhalb einer IT-Landschaft durch die jeweiligen Dienstleister verwendet werden. Kunden haben hier in der Regel keine oder nur eingeschränkte Sichten darauf. Dies führt dann zu folgendem Lösungsansatz in der Realität:

  • 1. Es existieren dienstleisterspezifische Überwachungslösungen, die zur Erbringung und Überwachung der jeweiligen SLAs, sprich Service Level Agreements verwendet werden.
  • 2. Es werden unterschiedliche Technologien/Lösungen zur Umsetzung eines IT-Monitorings verwendet. Dabei findet wenig Interaktion statt. In der Regel existieren einfache und standardisierte Alarmierungswege.
  • 3. Informationen über das Dienstleistermonitoring liegen dem Kunden in der Regel nicht vor.
  • 4. Alarmierungen laufen üblicherweise über Ticketsysteme zwischen Kunde und IT-Dienstleister.
  • 5. Es existieren so gut wie keine End-to-End-Checks, um anhand fachlicher Use-Cases zu prüfen, ob Anwendungs- und Technologiestack samt bestehender Schnittstellensysteme funktionieren.

Was sind die wesentlichen Probleme & Herausforderungen im alltäglichen IT-Monitoring?

Bezugnehmend auf das vorherige Kapitel ergeben sich im Allgemeinen folgende Probleme und Herausforderungen in der Praxis:

  • Keine gemeinsame Sicht: Es existieren keine gemeinsamen Dashboards auf IT-Landschaften und daraus resultierend eine Art „gemeinsame“ Dokumentation, die durch alle Beteiligten verwendet wird. Fachanwendungen werden zumeist durch die Kunden selbst überwacht. Diese sind in der Regel nicht Bestandteil der eigenen Kern-IT im Unternehmen, sondern den Fachabteilungen zugehörig.
    Informationen aus Fremdsystemen: Logevents aus Systemen, die nicht zum Monitoringverbund des jeweiligen Dienstleisters oder Kunden gehören, können nicht interpretiert werden. Schlimmstenfalls werden diese einfach ignoriert.
    Alarmierungswege: In der Regel existieren mehrere Alarmierungslösungen, die dann nur über Ticketsysteme kommunizieren. Meist ist dieser Weg recht langsam und der Kunde – und somit die Nutzer von Technologien und/oder Fachanwendungen – wird zu spät informiert.
    Präventive Checks: Das beste Monitoring-System ist eines, das nicht nur den Verlust eines IT-Services oder einer Komponente meldet, sondern „frühzeitig“ erkennt, dass ein Ausfall naht und der Systemverantwortliche noch die Chance hat, hier gegensteuern zu können um den Ausfall zu vermeiden. Diese existieren maximal für einzelne Technologien.
    Identifikation der Fehlerquellen: Im Falle einer Störung ist es wichtig, so schnell wie möglich die Fehlerquelle zu identifizieren und den Analyse- bzw. Entstör-Prozess zu starten.
    Klassische Metrik-Sicht: Die meisten Monitoring-Systeme sind für Außenstehende nicht nachvollziehbar, da meist nur systemspezifische Parameter (z.B. Anzahl Sessions/User, CPU-Load in Prozent, RAM-Auslastung in Prozent) dargestellt werden.

Umbrella-Monitoring-Lösungsansatz mit dem Grafana-Plugin-Flowcharting

Spricht man mit den Beteiligten, Dienstleister wie Kunde, wird schnell klar, dass eine gemeinsame Sicht unerlässlich ist, um Analyse sowie Entstörungsprozesse zu beschleunigen. Dazu ist ein ganzheitlicher Ansatz erforderlich, indem eine Art „Netz“ oberhalb der Monitoring-Silos aufgespannt wird. Hier sollen ganze IT-Landschaften auf einfache Art und Weise skizziert und mit Checks versehen werden, die dazu führen, dass Topologien, die aktuell durch mehrere Dienstleister überwacht werden, gesamtheitlich dargestellt werden können.

Mit dem Grafana-Plugin Flowcharting lässt sich eine solche Darstellung auf einfache Art und Weise und i. d. R. ohne weitere SW-Kosten (Open Source) umsetzen, zumal viele Kunden Grafana/Prometheus im Einsatz haben. Die Darstellung sollte dabei in 3 Ebenen der Detaillierung erfolgen. Die Grafiken dazu können direkt in draw.io unter Confluence erstellt und mit Checks hinterlegt werden. Das heißt, dass einzelne Icons hier mit einer Logik versehen werden und bei Überschreitung eines Schwellwertes farblich (und auch animiert) verändert werden können.

Im Folgenden werden diese Ebenen kurz und beispielhaft dargestellt:

Ebene-1: Die Top-Level-Ebene zur Darstellung von High-Level-Ansichten

  • Topologien/IT-Verbünde/Kerngeschäftsprozesse
    Schnittstellen-Systeme

Beispielimplementierung Top-Level-Ebene-1.
Beispielimplementierung Top-Level-Ebene-1.
(Bild: adesso)

In dieser obersten Ebene werden reine High-Level-Darstellungen abgebildet. Hier werden keine Details direkt visualisiert. Die dort hinterlegten Icons (z.B. Firewall), sollen alle aus Ebene 2 identifizierten Komponenten bündeln. Sofern dann ein Element aus Ebene 2 den Status von Grün auf Gelb oder Rot ändert, soll das in Ebene 1 visualisiert werden, damit nicht alle Dashboards parallel geöffnet sein müssen, um einen Statuswechsel zu erkennen. So gesehen, soll über Ebene 1 eine Zuführung über Gelb/Rot in den jeweiligen Bereich der Topologie in Ebene 2 erfolgen. Hier können dann weitere Infos eingesehen werden.

Ebene-2: Darstellung der einzelnen Topologien/IT-Verbünde/Kerngeschäftsprozesse

  • Darstellung der wesentlichen IT-Komponenten (Server, Netz, Technologie)
    ggf. Tabellendarstellungen für Status/Metriken

Ebene 2 mit den wesentlichen IT-Komponenten.
Ebene 2 mit den wesentlichen IT-Komponenten.
(Bild: adesso)

Hier werden die eigentlichen Topologien/IT-Verbünde mit allen wesentlichen Komponenten dokumentiert, damit die Darstellung übersichtlich bleibt. Hier werden auch systemspezifische Informationen wie z.B. IP, DNS oder Bandbreiten dokumentiert. Analog zu Ebene 1 können bei Bedarf auch in Ebene 2 Alarmierungen aus der darunterliegenden Ebene (3) gebündelt zu einem Status dargestellt werden.

Ebene-3: Darstellung von Topologie- und IT-Verbund-Details

Beispielimplementierung Ebene-3 Dashboard.
Beispielimplementierung Ebene-3 Dashboard.
(Bild: adesso)

Diese Ebene soll nur Verwendung finden, sofern Darstellungen aufgrund der Menge von Objekten (z.B. große Anzahl von Terminalservern) aufgeteilt werden müssen.

Notwendige Rahmenbedingungen und Vorgehen

Damit das Vorgehen erfolgreich ist, sollte Folgendes beachtet werden:

  • 1. Alle Beteiligten vorab ins Boot nehmen, um spätere Probleme oder Blockaden zu vermeiden. Am besten ein kleines Vorab-Assessment durchführen, um den Status quo zu ermitteln.
  • 2. Das Erwartungsmanagement aktiv auf allen Seiten vorantreiben, damit nicht unterschiedliche Wahrnehmungen existieren oder das Ganze ein Politikum wird. Vor allem dann, wenn externe Dienstleister involviert sind.
  • 3. Als Einführungsprojekt empfiehlt sich ein Proof of Concept (PoC), das nahtlos in die Produktion übergeht (im PoC sollte ein gewählter Ausschnitt der produktiven IT gewählt werden).
  • 4. Das Umbrella-Monitoring sollte nicht als führendes Monitoring-Tool verstanden werden, sondern als qualitätssicherndes Werkzeug für alle IT-Dienstleister zur gemeinsamen Identifikation von Störungen. Danach erfolgt der Absprung in die etablierten Werkzeuge und Prozesse für Incident- und Problemmanagement.
  • 5. Das Umbrella-Monitoring sollte nicht in die Alarmierung eingebunden werden (zumindest nicht im ersten Schritt und vor allem nicht, wenn andere Schwellenwerte definiert werden wie in den anderen, führenden Monitoring-Systemen).
  • 6. Die Komplexität der einzelnen Monitoring-Systeme soll nicht im Umbrella-Monitoring abgebildet werden, sondern lediglich ein einfaches Set an Checks/Metriken. Diese kommen aus den führenden IT-Monitoring-Systemen.
  • 7. Das Umbrella-Monitoring sollte einfache End-to-End Checks beinhalten, damit z.B. Anbindungen an Filialnetze überwacht und visualisiert werden oder aber das Zusammenspiel von Anwendungen und deren Schnittstellen.
  • 8. Das Vorgehen zur Einführung sollte analog der im Unternehmen gesetzten Prozesse geschehen.

Zusammenfassung aus Ausblick

Die hier aufgezeigten Ansätze lassen sich in der Praxis gut implementieren. Wichtig ist dabei die grundsätzliche Kooperation zwischen allen Beteiligten bei der Einführung. Das Grafana-Flowcharting-Plugin ist eine ideale Ergänzung, um verteilte Monitoring-Landschaften zentral zu erfassen und leicht verständlich (auch für das Management) darzustellen.

Natürlich kann es auch als zentrale Monitoring-Lösung eingesetzt werden. Neben operativen Dashboards zur Systemverfügbarkeit sind auch taktische Darstellungen für den Information Security Officer oder Chief Information Security Officer vorstellbar. Ebenso können Anwendungslandschaften aggregiert dargestellt und so ein Blick auf Kerngeschäftsprozesse eines Unternehmens abgebildet werden.

Gerd Herbertz
Gerd Herbertz
(Bild: adesso SE)

Es wäre schön, wenn dieser Artikel das Interesse in der Open-Source-Community weckt und mehr IT-Verantwortliche das Potenzial dieser Lösung erkennen und nutzen, damit die enthaltenen SW-Komponenten weiterentwickelt werden.

Gerd Herbertz, Jahrgang 1969, ist ausgebildeter Dipl.-Ing. (FH) Elektrotechnik. Bei adesso verantwortet er im Geschäftsfeld IT-Management Consulting das Competence Center Infrastruktur & Technologie, welches sich mit den Technologiestacks Microsoft und Linux beschäftigt. Im Umfeld von Sicherheitsinfrastruktur beschäftigt er sich mit der Entwicklung von Open Source basierten Lösungen für SIEM, Schwachstellenmanagement sowie Logging & Monitoring. Neben dem reinen Engineering und der Technologieberatung wird das Portfolio des Competence Centers durch IT-Management- und Strategieberatung abgerundet.

(ID:47903612)