Stabile Prozesse, schnelle Entwickler und zufriedene User Observability in verteilten Cloud-Umgebungen

Autor / Redakteur: Spiros Xanthos / Stephan Augsten

In modernen, Cloud-gestützten IT-Landschaften funktioniert das klassische Monitoring nicht mehr. Observability hingegen hilft dabei, in verteilten Architekturen den Überblick zu behalten. Wie genau das funktioniert, verrät dieser Beitrag.

Firmen zum Thema

Observability ist ein Maß dafür, wie gut sich die internen Zustände eines Systems aufgrund seiner Ausgabedaten ermitteln lassen.
Observability ist ein Maß dafür, wie gut sich die internen Zustände eines Systems aufgrund seiner Ausgabedaten ermitteln lassen.
(© Sikov - stock.adobe.com)

Auf einmal musste alles sehr schnell gehen: Wer im Januar 2020 noch immer keinen Plan in puncto Digitalisierung hatte, musste spätestens zum ersten Lockdown im März seine Hausaufgaben machen. In der Krise haben Unternehmen schneller denn je neue Technologien eingeführt und viele Workloads in die Cloud verlagert. Die Arbeitswelt verlagerte sich ins Homeoffice, und die Unternehmen zogen in die Cloud.

In Zukunft wird das kein Trend mehr sein, sondern zur neuen Normalität werden: 69 Prozent der Befragten einer Umfrage von Harvard Business Review gaben an, dass sich in zwei Jahren 60 Prozent oder mehr der Infrastruktur und Anwendungen ihres Unternehmens in der Cloud befinden werden. Das alles hört sich gut an – die Cloud bringt aber auch neue Herausforderungen mit sich.

Komplexe Cloud-Umgebungen

Wo mit der Cloud-Migration neue Lösungen eingeführt, entwickelt und expandiert werden, ergibt sich eine vielschichtige, verwobene und sich ständig verändernde IT-Landschaft. Dazu gehören unter anderem physische und virtuelle Server, private Clouds, Public Clouds – noch dazu in verschiedenen Instanzen – samt Software as a Service (SaaS), physischen Devices, IoT- und Edge-Installationen sowie darüber hinaus meist einigen unverzichtbaren Legacy-Anwendungen.

Alles in allem sind solche hybriden Multi-Cloud-Umgebungen komplexe Konstellationen aus Cloud-Technologie und lokalen IT-Infrastrukturen, die teils on-premises betrieben werden, teils in die Cloud ausgelagert sind. Diese Technologie-Vielfalt bringt enorme Vorteile mit sich, von der Flexibilität in Performance und Abrechnung bis zu dem Umstand, dass manche Services kaum anders als aus der Cloud zu beziehen sind, wie im Beispiel Künstliche Intelligenz (AI).

Gleichzeit gilt aber auch: Je komplexer die IT-Infrastrukturen werden, desto anfälliger sind sie für Performance- und Sicherheitsprobleme. Das gilt besonders dann, wenn die Implementation schnell und unter Druck erfolgt. Aktuell sind hybride IT-Architekturen mit ihren spezifischen Konstellationen gerade deshalb besonders kritisch, weil viele Unternehmen ihrer Digitalisierung im letzten Jahr in Höchstgeschwindigkeit vollzogen haben.

Datenquellen zusammenführen

Für CIOs und das IT-Management erwächst dadurch eine echte Herkulesarbeit. Sie müssen ein vernünftiges Monitoring aufzusetzen und das über die gesamte Infrastruktur mit all ihren verschiedenen Ansätzen, Datenbanken, Apps, Microservices und Schnittstellen über mehrere, unterschiedliche Umgebungen hinweg. Denn alles soll und muss kontrolliert, überwacht, gesichert und archiviert sowie nicht zuletzt geschützt werden.

Klassisches Application Performance Monitoring (APM) und Infrastruktur-Monitoring ist gut, aber die bisherigen Tools für diese Zwecke funktionieren schlicht nicht über mehrere Umgebungen hinweg – oder nur mit sehr viel Mühe. Das bedeutet für die Entwickler, dass sie aufwendig von Tool zu Tool wechseln, Daten aggregieren, vergleichen, in Korrelation setzen. Dies alles ist zeitaufwendig und kann unter Umständen bedeuten, dass ein Fehler bereits eskaliert, noch bevor seine Ursache entdeckt und eine Lösung da ist.

Dass klassisches Monitoring nicht mehr funktioniert, liegt vor allem daran, dass moderne, Cloud-gestützte IT-Landschaften agile Systeme sind. Microservices, Container und DevOps ermöglichen schnelle Entwicklungen und dynamische Entwickler-Pipelines, sie bewirken aber auch, dass die gesamte Infrastruktur intransparent wird. Gefragt ist daher ein Ansatz, der im Datenzeitalter eine umfassende Systemübersicht über sämtliche Umgebungen hinweg bietet: Observability.

Observability schafft Transparenz im Netzwerk

Im Grunde bezeichnet Observability zunächst nur eine Eigenschaft eines Systems oder vielleicht besser gesagt: eine Anforderung an ein System, wie Benutzerfreundlichkeit oder Stabilität. Observability ist ein Maß dafür, wie gut sich die internen Zustände eines Systems aufgrund seiner Ausgabedaten ermitteln lassen. Als Grundsatz gilt, je verteilter das IT-System, desto wichtiger wird Observability, damit die kontinuierliche Leistung des Systems gewährleistet und verbessert werden kann.

Mit Observability nicht nur das einzelne Teil sehen, sondern das gesamte Puzzle.
Mit Observability nicht nur das einzelne Teil sehen, sondern das gesamte Puzzle.
(Bild: Splunk)

Die oben beschriebenen komplexen Umgebungen machen auch die Verfolgung eines Events bis zu seinem Ursprung komplizierter. Tausende Prozesse werden in diesen verteilten Systemen benötigt. Kein Wunder also, dass herkömmliche Monitoring-Verfahren und Tools Schwierigkeiten haben, die vielen Kommunikationspfade und Abhängigkeiten in diesen verteilten Architekturen zu verfolgen.

Observability versus Monitoring

Cloud-native Technologien wie Container, Kubernetes, Microservices und serverlose Funktionen ermöglichen eine enorme Flexibilität und beschleunigen die Markteinführung, aber sie überfordern auch traditionelle und viele sogenannte "moderne" Monitoring-Tools. Einer aktuellen Studie zufolge sind nur elf Prozent der Entscheider mit ihren Monitoring-Tools zufrieden. Der Rest sucht entweder aktiv nach neuen Tools oder hat Pläne dafür, ihr Ansätze Monitoring zu verbessern. Neben dem Wildwuchs an Tools liegen die Gründe hierfür auch noch an Folgendem:

  • Fehlende Daten: Viele Monitoring-Tools nehmen Stichproben oder verwerfen Daten und schränken die Struktur der Daten ein, die sie einlesen. Dadurch entstehen Sichtbarkeitslücken sowohl für die Benutzer als auch für die Analysealgorithmen, die zu längeren Problemlösungszeiten führen.
  • Langsame Leistung: Container lassen sich innerhalb weniger Minuten hoch- und runterfahren, serverlose Funktionen werden in Sekunden aufgerufen, Microservices sind ein komplexes Netz aus Interaktionen und Beziehungen. Überwachungstools, die nicht für den Betrieb im Sekundenbereich und die schnelle Skalierung zur Bewältigung von Datenverkehrsbursts entwickelt wurden, übersehen Probleme und sind ineffektiv.

Und das ist auch schon der Unterschied zwischen Observability und Monitoring – beim Monitoring werden verschiedene Daten gesammelt und überwacht. Die großen Zusammenhänge zu sehen ist jedoch nicht möglich. Observability geht hier einen Schritt weiter, indem die Daten und Erkenntnisse aus dem Monitoring als Grundlage herangezogen werden, um und ein ganzheitliches Bild von Zustand und Leistung des Systems zu schaffen.

Primär beruht Observability auf einer Datenbasis, die wir bei Splunk die „drei Säulen der Observability“ nennen: Logdateien, Metriken und Anwendungs-Traces. Allerdings ist auf diesen drei Säulen nicht leicht aufzubauen, ohne dass eine davon zu wackeln beginnt. Logdateien gibt es in Klartext, strukturiert oder binär, Metriken habe ihre ganz eigenen Standards. Traces aus dem APM, die den Verlauf einer Anfrage durch ein verteiltes System zeigen, sind sehr komplex und liegen mehr oder minder unstrukturiert vor.

Es ist klar, dass sich die Observability eines Systems enorm steigert, wenn eine einheitliche Plattform wie die Splunk Observability Suite die Monitoring-Ergebnisse aus Logs, Metriken und Traces in eine einzige Lösung integriert, kontextualisiert und visualisiert – und zwar praktisch in Echtzeit. Hier ist besonders ein nahtloser Workflow für Monitoring, Troubleshooting und Untersuchungen wichtig, der eine konsistente Nutzererfahrung über alle Metrik-, Trace- und Logdaten hinweg bietet.

Die Vorteile von Observability in allen Bereichen.
Die Vorteile von Observability in allen Bereichen.
(Bild: Splunk)

Im Ergebnis erhält das IT-Management mit Observability die Visibilität, die es benötigt und kann zentral auf die gesammelten Daten zugreifen, sie durchsuchen, filtern und analysieren. Es sieht nicht nur sofort, wenn und wann Probleme auftreten, sondern erkennt auch sehr viel schneller, wo und warum sie sich ereignen, kann Alerts einrichten und Reaktionen automatisieren.

Observability bringt viele Vorteile

Unterm Strich sparen sich DevOps- und Admin-Teams durch eine Observability-Plattform eine Menge Arbeit und Zeit. Und die Unternehmen sparen Kosten: unmittelbar, weil Troubleshooting und Workarounds weniger Personal und Zeit binden und weil sich kritische Probleme, d. h. Ausfälle, schneller lösen lassen. Essentiell ist das speziell für den Vertrieb, der nicht nur online auf ständig verfügbare, funktionierende Systeme angewiesen ist.

Weiche Faktoren wie Zuverlässigkeit und Vertrauen spielen ebenfalls eine große Rolle, da sie sich unter anderem auf die Kundenzufriedenheit und damit auf die nachhaltige Kundenbindung auswirken. Gut sichtbar ist dies im E-Commerce, wo die Stabilität und User Experience des Bestellprozesses zusammen mit der Seriosität des Bezahlprozesses zentrale Erfolgskriterien darstellen.

Anwenderbeispiel Atlassian

Atlassian, das Unternehmen hinter Kollaborationslösungen wie Jira, Confluence oder Trello, nutzt die Observability Suite, damit seine über 2000 Entwickler eine optimale Customer Experience liefern können. Home Office rückt die Zuverlässigkeit von Lösungen in den Fokus: Es gibt immer mehr Menschen, die Kollaborationslösungen wie Jira oder Confluence nutzen und deren Arbeitsalltag davon abhängt, dass diese gut funktionieren.

Hier sind die Daten zentral. In einer hybriden Multi-Cloud-Umgebung sind datenbasierte Entscheidungen die richtigen Entscheidungen. Die notwendige Datenbasis hierfür kommt aus dem Observability-Tool, das die gesamte Cloud-Umgebung durchgängig überwacht und so schnell die wichtigsten Daten liefern kann. „Es ist wichtig zu wissen, wo wir unsere Zeit investieren müssen,“ davon ist Colby Funnell, Head of Observability bei Atlassian überzeugt.

Wichtige Werte, wie etwa die Performance, müssen ständig gemessen werden, um eine genaue Schätzung der Zuverlässigkeit garantieren zu können. Das ist besonders für die Entwicklungszeit oder die Produktion wichtig. Während Monitoring bisher als einer der letzten Entwicklungsschritte gesehen wird, denkt Atlassian Observability bereits während der Entwicklung mit. Nur so kann sichergestellt werden, dass die die Lösung am Ende den bestmöglichen Nutzen liefert.

* Spiros Xanthos ist Vice President of Project Management, Observability und IT Operations bei Splunk.

(ID:47334078)