IT Operations im Eiltempo Hyper-Care-Modus im Incident-Management

Von Rachel Obstler * |

Anbieter zum Thema

IT-Teams haben unter dem Stress der aktuellen Situation ihren Takt bei der Lösung von IT-Problemen noch einmal erhöht. Das ist äußerst beachtlich, denn die IT lässt viele Dinge des Alltags, die hintergründig kompliziert sind, simpel erscheinen.

Rachel Obstler, Vice President Product bei Pagerduty: „Wenn man bedenkt, wie stark der Anstieg der Vorfälle und wie hoch der Druck in letzter Zeit war, wird wirklich deutlich, welche Leistung die Teams erbracht haben, um die Antwortzeiten bei der Lösung von IT Problemen um so hohe Prozentzahlen zu reduzieren.“
Rachel Obstler, Vice President Product bei Pagerduty: „Wenn man bedenkt, wie stark der Anstieg der Vorfälle und wie hoch der Druck in letzter Zeit war, wird wirklich deutlich, welche Leistung die Teams erbracht haben, um die Antwortzeiten bei der Lösung von IT Problemen um so hohe Prozentzahlen zu reduzieren.“
(Bild: StockSnap auf Pixabay)

Selbst unscheinbare digitale Vorgänge wie beispielsweise der Online Check-in für einen Flug, lösen einen vielschichtigen technischen Prozess innerhalb der IT aus. Die einwandfreie Funktion einer Anwendung im Zuge eines Swipe oder Klicks ist auf die Zuverlässigkeit eines komplexen IT-Ökosystems angewiesen.

Solche Systeme bestehen meist aus Millionen von Codezeilen und umfassen in der Regel mehrere Software-Anwendungen, Hybrid- und Multi-Cloud-Technologien, modernste IT-Infrastrukturen, Sicherheitsanwendungen und vieles mehr. Das Besteigen eines Flugzeugs mag einem zwar derzeit wie eine Erinnerung aus längst vergessenen Tagen vorkommen – dennoch dient es als gutes Beispiel für eine einzelne Aktion, die eine Reihe hochkomplexer Prozesse auslöst.

Noch mehr Druck

Und dann passiert so etwas wie COVID-19. Plötzlich arbeiten alle IT-Teams weltweit nicht mehr nur hart daran, die Dienste perfekt am Laufen zu halten, sie tun es auch noch von zu Hause aus, oft mit Kindern und der ganzen Bürde des Familienlebens. Sie gründen Krisenteams, entwickeln neue digitale Services, die dem sprunghaften Anstieg des Online-Verkehrs und der Online-Nachfrage gerecht werden.

Gleichzeitig helfen sie dem Unternehmen, das Remote-Arbeiten unabhängig von Standorten zu unterstützen und Kunden ausschließlich über Online-Kanäle an sich zu binden. Die Aussage, die IT habe es gerade schwer, ist deshalb schlichtweg eine Untertreibung. Sie steht vielmehr unter einem enormen digitalen Druck.

Während des Lockdowns stiegen weltweit die Incidents an.
Während des Lockdowns stiegen weltweit die Incidents an.
(Bild: Pagerduty)

Eine kürzlich durchgeführte Erhebung von Pagerduty macht deutlich, wie viel Stress die Teams tatsächlich ausgesetzt sind. In bestimmten Branchen, wie dem Online-Lernen stieg die Anzahl der Incidents pro Tag zum Beispiel um das 11-fache und Dienste für die Zusammenarbeit verzeichneten einen durchschnittlichen Anstieg der Incidents um das 8,5-fache. Um die Ergebnisse in einen breiteren Kontext zu stellen: Bei mehr als 12.000 befragten Unternehmen hat sich die Zahl der Incidents verdoppelt.

Druck treibt an

Auch andere Studien belegen diesen Stress. So erwarteten laut einer Umfrage bereits Anfang April drei Viertel der Operations- und DevOps-Teamleiter, dass sie Initiativen und Projekte zur digitalen Transformation während der globalen Pandemie beschleunigen oder aufrechterhalten werden. Dabei dienen diese Projekte in erster Linie dazu, Services sicher, leistungsfähig und verfügbar zu machen.

Nicht nur, dass der Grad der Digitalisierung immer wichtiger für den Unternehmenserfolg wird. In der derzeitigen Situation wird auch klar, welche Bedeutung digitale Technologien für die Wirtschaft insgesamt haben: Sie sind weniger krisenanfällig, gleichzeitig entpuppen sie sich als Stabilisatoren für die Wirtschaft und den Arbeitsmarkt.

Laut Gartner können Unternehmen, die ihre Technologiekapazitäten und Investitionen auf digitale Plattformen verlegen, die Auswirkungen der Krise abmildern und für die Zukunft vorsorgen. Deshalb sind Unternehmen gut beraten, die digitale Transformation entschlossener denn je anzugehen.

Das bedeutet aber auch, dass die IT neben all den oben genannten Herausforderungen vor deutlich mehr Problemstellungen steht als üblich. Wie reagieren die Teams nun auf diesen erhöhten Druck? Die Erhebung zeigt: Trotz der steigenden Nachfrage bewältigen sie die Anforderungen schneller als je zuvor.

Schneller, viel schneller

Der Silberstreifen am digitalen Stress-Horizont der letzten Wochen ist jedoch die Art und Weise, wie die IT es schafft, die Zeit tatsächlich zu verkürzen, die benötigt wird, um weitere Incidents zu meistern. Schließlich leisten manche IT Teams beim Incident Response Management hervorragende Arbeit.

Es überrascht nicht, dass das Online-Lernen in diesem Zusammenhang eine der bisher am stärksten betroffenen Branchen ist. Laut der Studie schaffen es diese Plattformen, die durchschnittliche Zeit bis zur Lösung eines Incidents deutlich zu verkürzen und beheben einen Vorfall 39 Prozent schneller als vor der Pandemie. Und den Entertainment-Diensten gelang es sogar in den letzten Wochen 63 Prozent schneller eine Lösung zu finden.

Daraus lässt sich schließen, dass die Unternehmen innerhalb kürzester Zeit in den so genannten „Hyper-Care“-Modus gewechselt haben.

'‚Acking and Owning‘ im Hyper-Care-Modus

Der Begriff Hypercare beschreibt einen Zustand erhöhter Bereitschaft innerhalb der IT-Organisation. In Zeiten wie diesen konzentrieren sich IT-Teams auf Folgendes:

Jetzt Newsletter abonnieren

Täglich die wichtigsten Infos zu Softwareentwicklung und DevOps

Mit Klick auf „Newsletter abonnieren“ erkläre ich mich mit der Verarbeitung und Nutzung meiner Daten gemäß Einwilligungserklärung (bitte aufklappen für Details) einverstanden und akzeptiere die Nutzungsbedingungen. Weitere Informationen finde ich in unserer Datenschutzerklärung.

Aufklappen für Details zu Ihrer Einwilligung
  • Einrichtung oder Mobilisierung von Krisenteams, um die dringendsten Probleme mit den entsprechenden Ressourcen schnell und effektiv anzugehen. Dadurch werden das Kundenerlebnis geschützt und Umsatzeinbußen vermieden.
  • Es gilt: Zuverlässigkeit hat für jeden im IT-Team absolute Priorität. Das bedeutet auch, dass unwesentliche Funktionen zurückgestellt werden, so dass die wichtigsten Dienstleistungen skaliert werden können, um der hohen Nachfrage gerecht zu werden.
  • Entscheidung für den „Outside-in“-Ansatz, bei dem das Unternehmen versucht, seine Ressourcen und Fähigkeiten den äußeren Umständen anzupassen. Dabei werden Kundenerfahrungen und -stimmung sowie Site-Traffics und soziale Medien beobachtet.
  • Identifikation von Problemen und Lösung in Echtzeit mithilfe einer Orchestrierungs-Plattform, die Reaktionen auf Incidents automatisiert und dabei die richtigen Personen und die Daten zusammenführt.

Die Autorin Rachel Obstler ist Vice President Product bei Pagerduty.
Die Autorin Rachel Obstler ist Vice President Product bei Pagerduty.
(Bild: Pagerduty)

Mein Fazit

Wenn man bedenkt, wie stark der Anstieg der Vorfälle und wie hoch der Druck in letzter Zeit war, wird wirklich deutlich, welche Leistung die Teams erbracht haben, um die Antwortzeiten bei der Lösung von IT Problemen um so hohe Prozentzahlen zu reduzieren. IT-Teams waren schon immer das 'unsichtbare' Rückgrat digitaler Dienste.

Angesichts des beispiellosen Anstiegs der Nachfrage nach IT-Unterstützung sind sie zwar 'versteckte' aber unverzichtbare Arbeitskräfte. Ausgereifte Orchestrierungs-Plattformen, die Incidents präventiv in Echtzeit identifizieren, helfen den Teams, auch extrem hohen Anforderungen an das Response Management zu bewältigen.

* Rachel Obstler ist Vice President Product bei Pagerduty. In ihrer 20-jährigen Karriere war sie für unterschiedliche Unternehmen tätig, darunter Start-Ups und internationale Konzerne. Dort sammelte sie fundierte Erfahrungen im Bereich Produkt-Management und Marketing. Vor ihrer Tätigkeit für Pagerduty zeichnete die Absolventin des MIT und der Standford University verantwortlich für die Einführung milliardenschwerer Produktlinien und leitete die Produktorganisationen bei Lucent Technologies, Metawave Communications, Telephia, Deviceanywhere, Keynote Systems und Dynatrace.

Über Pagerduty

Pagerduty wurde 2009 von drei ehemaligen AWS-Software-Entwicklern als Plattform für Developer gegründet; denn sie wussten aus eigener Erfahrung wie es ist, den Pager (für Cloud-Dienste) mit sich führen und „rund um die Uhr zur Verfügung stehen“ zu müssen. Was ursprünglich als Automatisierung von On-Call Zeitplänen sowie Warnmeldungen konzipiert war, hat sich zu einer umfassenden Plattform entwickelt, die Unternehmen jeder Größenordnung dabei hilft, ihre digitalen Operationen proaktiv sowie intelligent zu automatisieren.

Inzwischen bietet das Unternehmen mehr als On-Call-Management. Die Orchestrierungs-Plattform ist in „ITOps“ und „DevOps“ Monitoring-Stacks integriert und optimiert die Betriebssicherheit und Agilität. Zudem lässt sie sich für eine große Bandbreite an Anwendungsfällen und Szenarien skalieren.

IT-Teams verwenden Pagerduty-Software, um Incidents präventiv in Echtzeit zu identifizieren und die richtigen Mitarbeiter zusammenzuführen, damit Probleme schneller behoben und in Zukunft pro-aktiv verhindert werden können. Die Software verbindet sich laut Hersteller mit jedem System, um sowohl maschinell erstellte sowie von Menschen generierte Daten zu analysieren.

Wie die Software arbeitet

Dank Machine Learning erkennt die Software Incidents und Präventionsmaßnahmen in Echtzeit und ermöglicht somit ein frühzeitiges Eingreifen. Darüber hinaus benachrichtigt die Software immer den richtigen Ansprechpartner, damit diese die richtigen Schritte einleiten können, wenn es auf Sekunden ankommt. Ferner werden alle Informationen und Analytics-Daten ausgewertet, so dass Systeme und Teams kontinuierlich optimiert werden können.

Nach Unternehmensangaben verwenden 57 Prozent der Fortune100-Unternehmen Pagerduty–Tools, darunter auch eine Vielzahl der Top DAX-Konzernen. Zu den über 13.000 Kunden gehören Marken wie SAP, Flixbus, Verivox, GAP, Vodafone, Zoom, Slack, Netflix und Shopify.

(ID:46672261)