Monitoring & Observability: Daten sammeln und Systeme verstehen Von einfacher Überwachung zum ganzheitlichen Überblick
Anbieter zum Thema
Immer seltener reicht es aus, „einfach nur“ die Daten der Systeme zu sammeln und analysieren. Das Schlagwort vom holistischen Ansatz wird hier mit dem Begriff Observability – Beobachtbarkeit – übersetzt. Was steckt hinter diesem Ansatz und wie kommt er in der Praxis zum Einsatz?

Für die IT-Verantwortlichen vom CIO bis zu den Administratoren vor Ort wird es immer schwerer, den Überblick und damit die Systeme, Anwendungen und Daten im Griff zu behalten. Klassisches Monitoring, bei dem nur die Log-Dateien der wichtigen Server ausgelesen und protokolliert wurden, ist bei den heutigen komplexen IT-Landschaften nicht mehr ausreichend.
Beim Monitoring geht es grundsätzlich um das Sammeln und Analysieren von Daten. Diese kommen nicht mehr nur aus den Protokolldateien der Server, sondern aus allen Quellen wie dem Netzwerk und der gesamten Infrastruktur und ebenso aus den eingesetzten Anwendungen und den vorhandenen Daten über die Nutzer.
Dabei ist die Definition von IT-Monitoring prinzipiell recht einfach. Die Spezialisten von Splunk haben das treffend zusammengefasst: „IT-Monitoring umfasst ein breites Spektrum an Monitoring Software, Monitoring Tools und Produkten, mit denen Analysten feststellen, ob die IT-Systeme online sind und das erwartete Service-Level erfüllen.“ Doch durch die große Anzahl der Aufgaben, die bei der Überwachung der Systeme zwangsläufig anfallen, kommen die IT-Mannschaften dabei schnell an ihre Grenzen. Hier kann ein ganzheitlicher Ansatz, wie ihn die Observability bietet, Hilfe leisten.
Wo endet Monitoring, wo beginnt die Observability?
Grundsätzlich sind sich Observability und Monitoring sehr ähnlich. Mit Hilfe der Observability sollen IT-Betreuer nicht nur grundlegende Einblicke in ihre IT und Systeme bekommen, sondern sie sollen mithilfe der Tools und Programme auch Daten sammeln und analysieren können. Dadurch werden sie in die Lage versetzt, Probleme proaktiv zu erkennen und zu lösen.
Das hat den Vorteil, dass sie nicht mehr ausschließlich reaktiv auf die entsprechenden Situationen reagieren müssen. Ein wichtiger Unterschied zwischen der Beobachtbarkeit (Observability) und der Überwachung (Monitoring) besteht darin, ob die Daten, die aus einem IT-System gezogen werden, im Voraus festgelegt sind oder nicht. Überwachung ist eine Lösung, die vorgegebene Daten aus einzelnen Systemen sammelt und analysiert. Beobachtbarkeit ist eine Lösung, die alle von allen IT-Systemen erzeugten Daten zusammenfasst.
Die meisten Experten sowie Anbieter von Monitor- und Observability-Lösungen definieren drei Säulen als Grundlage für Observability. Die Kombination dieser drei Säulen der Observability hilft DevOps- und SRE-Teams, die Daten zu erhalten, die sie für die Bereitstellung einer Observability-Architektur benötigen und werden von den Experten gern auch als „Das Goldene Dreieck der Observability“ bezeichnet:
- Logs: Ein Log ist eine Aufzeichnung eines Ereignisses, die in Textform vorliegt. In dieser Datei befindet sich auch ein Zeitstempel, der angibt, wann dieses Ereignis stattfand.
- Metriken: Metriken sind im Gegensatz zu den Logs immer strukturiert. Es handelt sich dabei um einen Zahlenwert, der über einen Zeitraum gemessen wurde.
- Traces: Ein Trace zeigt den kompletten Verlauf einer Anfrage auf. IT-Fachleute können anhand von Traces den Weg auch durch verteilte Systeme verfolgen und so unter anderem Ursachen von Ausfällen finden.
Observability bei den Daten
Der Begriff der Observability wurde bereits in den 60er-Jahren des letzten Jahrtausends von Rudolf Emil Kálmán geprägt, einem ungarisch-amerikanischen Elektroingenieur, Mathematiker und Erfinder. Doch seit jener Zeit haben sich Teil- und Unterbereiche der „Beobachtbarkeit“ ausgebildet: Das reicht von der Anwendungs-Observability bis hin zur Security Observability. Viel Verwirrung stiften dabei die beiden Begriffe Data Observability (Datenbeobachtung) und Observability Data (Beobachtungsdaten), die unterschiedlichen Zielen dienen und auch ganz verschiedene Marktsegmente adressieren.
Das amerikanische Unternehmen Cribl konzentriert sich auf den Bereich Data Observability und definiert die Unterschiede folgendermaßen: Die traditionelle Betrachtungsweise Observability Data ist auf den IT-Betrieb ausgerichtet. Die Daten umfassen die Metriken, Ereignisse, Protokolle und Spuren, die das Team für den täglichen Betrieb benötigt und die für alle anderen Formen der Beobachtbarkeit und Überwachung wichtig sind. Sie werden von Anwendungen, Containern, Servern und Diensten erzeugt und von Security Operations Teams, IT Operations und Monitoring sowie Site Reliability Engineers (SREs) verwendet, um ihre Umgebungen zu verstehen, Leistungen zu messen und Sicherheitsbedrohungen rechtzeitig zu erkennen. Das Volumen der dabei anfallenden Daten übersteigt dabei häufig das anderer Datenquellen wie Transaktionsdaten. Die Data Observability ist dagegen Analyse-fokussiert. Hier spielt weniger die Herkunft der Daten als deren Qualität und die Qualität der Analyse-Pipelines eine entscheidende Rolle.
Observability-Werkzeuge – natürlich auch mit KI
Nicht nur bei der Überwachung, sondern, auch wenn es um die Automatisierung ganz verschiedener Aufgaben in der IT-Verwaltung und -Betreuung geht, setzen fast alle Unternehmen heute darauf, ihre Tools und Anwendungen mit KI-Fähigkeiten anzureichern. Das Spektrum reicht dabei von einfachen Skript-Funktionen, die als ML-Techniken (Machine Learning) deklariert werden, bis hin zur Integration von OpenAIs Sprachmodellen.
So hat unter anderem die auf Observability spezialisierte Softwarefirma New Relic unter dem Namen „Grok“ einen Assistenten für Observability veröffentlicht, der mit generativer KI arbeitet. Die Software soll damit eine MLOps-Integration mit OpenAIs GPT-3, GPT-3.5 und GPT-4 zur Überwachung dieses Dienstes bieten können. Eine leichtgewichtige Bibliothek kann bei der Überwachung von OpenAI-Abschlussanfragen helfen, sowie gleichzeitig Statistiken über die Anfragen der Nutzer rund um ChatGPT in einem New Relic-Dashboard aufzeichnen.
Dabei bietet das Tool Anweisungen zur Instrumentierung von Diensten, richtet fehlende Alarme ein und automatisiert Alarme mit Terraform. Zudem soll es auch Lücken in der Instrumentierung identifizieren können und es ermöglichen, dass Analyseabfragen in einfacher und beliebiger (natürlicher) Sprache formuliert werden können.
(ID:49789787)