Uptime Institute zu Resilienz und Public Cloud Was das Stabilisieren von Anwendungen in der Cloud kostet
Anbieter zum Thema
Die vertraglichen Zusagen der Betreiber von Public-Cloud-Diensten betreffen die Services, nicht die Anwendungen, die diese Services nutzen. Wer mehr Stabilität will, muss zuzahlen. Eine neue Studie des Uptime Institute untersucht in verschiedenen Szenarien den jeweiligen Aufpreis („Resilienzprämie“).

Anwendungen in der Public Cloud sind mehr noch als Anwendungen in einem lokalen Rechenzentrum durch Ausfälle gefährdet: Einzelne (virtuelle) Server können sich ebenso verabschieden wie eine ganze Rechenzentrums-Agglomeration (Availability Zone) oder auch ganze Regionen. Im Gegenzug ermöglicht die Cloud-Architektur aber auch fast beliebige Redundanzen, freilich nicht zum Nulltarif für die Anwender.
In einer neuen Studie von Owen Rogers „Public Cloud Costs versus Resilieny“, veröffentlicht am 5.7. 2022, untersucht das Uptime Institute verschiedene Konstellationen für eine größere Anwendungsresilienz und die damit verbundenen Mehrkosten gegenüber einer in der Studie definierten (mehrkostenfreien) Standard-Konfiguration.
Die Strategie zur Erhöhung der Resilienz der Anwendungen besteht in einer redundanten Verteilung der Arbeitslasten über Zonen und Regionen und in dem geschickten Ausbalancieren dieser Lastenverteilung. Die Spezialisten von Uptime haben drei primäre „Resilienzszenarien“ modelliert, und zwar Maschinenebene, Maschinen- und Zonenebene und Maschinen-, Zonen- und Regionalebene sowie zwei Resilienzarchitekturen mit aktiver Ausfallsicherung auf Regionenebene. Für jedes Szenario haben sie das Kosten-Nutzen-Set (Ausfallsicherheit, Kosten und finanzielle Entschädigung), das die jeweils gewählte Architektur kennzeichnet, mit dem Kosten-Nutzen-Set der Standard-Konfiguration verglichen.
Missverhältnis zwischen Schaden und Entschädigung
Servicevereinbarungen (SLAs) beziehen sich – wie der Name schon besagt – auf Services, nicht auf Anwendungen. Wenn ein Service ausfällt, bezieht sich eine entsprechende Entschädigung durch den Cloud-Provider nur auf diesen Service, auch wenn durch dessen Ausfall eine komplette Anwendung „abschmiert“. Die Entschädigung ist also unter Umständen nur ein kleiner Bruchteil des geschäftlichen Schadens, der durch den Ausfall des Dienstes verursacht wurde.
Darüber hinaus gibt es Unterschiede bezüglich der Verantwortlichkeiten für Services. Während Mechanismen zur Lastenverteilung durch den Cloud-Provider verwaltet werden, obliegen andere Services (beispielsweise virtualisierte Maschinen) und deren Härtung gegen Ausfälle dem Benutzer, beispielsweise im Rahmen eines „Infrastructure -as-a-Service“-Modells.
Untersucht werden zustandslose Anwendungen
Jedes in der Studie aufgeführte Szenario bezieht sich auf dieselbe Testbed-Anwendung, nämlich eine einfache „Wordpress“-Webseite. Die Anwendung ist zustandslos: Benutzer fordern eine Seite an und die Seite wird zurückgegeben. In der Anwendung werden also keine neuen Informationen aus Endbenutzeranfragen gespeichert und auch keine Aufgaben auf der Grundlage früherer Transaktionen ausgeführt.
Im Gegensatz zu der Anwendung, die der Studie zugrunde liegt, sind bei einer zustandsabhängigen Anwendung, beispielsweise einer Finanztransaktion, die Dinge weitaus komplizierter, da bei einem Service-Ausfall andere Verfügbarkeitszonen und -regionen über eine aktuelle Kopie der vergangenen Transaktionen verfügen müssen.
Bei der Studie, über die wir hier berichten, sind dagegen die Daten statisch und müssen nicht aktualisiert oder dupliziert werden. Zustandsabhängige Anwendungen und ihre „Cloud-Kosten“ untersucht Uptime Institute nach eigener Aussage demnächst separat.
Die Berechnungen der verschiedenen Resilienzszenarien in der Studie beruhen auf dem Vertrags- und Preisgefüge der Amazon Web Services (AWS). Als Grund für diese Wahl gibt man an, dass AWS der Marktführer sei und überdies sehr gute Detailinformationen anbiete. Man sei aber sicher, dass auch Mitbewerber von AWS (Microsoft Azure und andere) ähnliche Preismodelle, Services und Architekturprinzipen hätten.
Verteilung der Last über mehrere Zonen kostengünstig
Die Studie liefert sehr detaillierte Zahlen zu den einzelnen Resilienzarchitekturen und den damit einhergehenden Kosten. Und sie gibt Hinweise, wo viel Geld gespart werden kann, wenn man bei der Wiederherstellung von Diensten nicht unbedingt auf Echtzeit besteht, sondern zeitlich ein bisschen flexibler ist, bis ein entsprechender Dienst wieder bereitsteht.
So kostet nach Berechnungen und Simulationen des Studienautors eine gegen Rechner- und Zonenausfälle geschützte Anwendung etwa 45 Prozent mehr als eine ungeschützte Anwendung. Dieser Aufschlag sinkt auf nur 15 Prozent, wenn das Unternehmen eine Verzögerung von 15 Minuten zur Wiederherstellung tolerieren kann.
„Verfügbarkeitszonen sind die Hauptstütze der Cloud-Resilienz und bieten leicht konfigurierbare Redundanz zu einem relativ geringen Kostenaufschlag oder auch ohne jegliche Extrakosten, da viele Cloud-Dienste so konzipiert sind, dass sie standardmäßig zonenübergreifend belastbar sind“, heißt es in der Studie. Und weiter: „In Anbetracht der Tatsache, dass die Ausfallsicherheit auf Zonenebene relativ kostengünstig ist, sollten Benutzer ihre Arbeitslasten über mehrere Zonen verteilen.“
Nicht am falschen Platz sparen
Deutlich teurer wird es, wenn es um die regionale Ausfallsicherheit geht. Hier ist zu berücksichtigen, dass viele Cloud-Dienste nicht standardmäßig über Regionen hinweg ausfallsicher sind. Tatsächlich müssen Nutzer für eine Anwendung, die gegen Maschinen-, Zonen- und regionale Ausfälle mit einer Wiederherstellungszeit von Null geschützt ist, mit einem Aufschlag von rund 111 Prozent der Kosten einer ungeschützten Anwendung rechnen. Dieser Kostenaufschlag kann auf bis zu 52 Prozent sinken, wenn die Nutzerin eine Verzögerung von maximal 5 Minuten für die Bereitstellung zusätzlicher Kapazität akzeptiert.
„Erstaunlich kostengünstig“ schätzen die Uptime-Leute die Einrichtung einer Ausfallsicherung für eine Region ein. So könne während eines größeren Ausfalls ein voraktivierter DNS-Dienst als Ausfallsicherung auf eine Backup-Region verwendet werden, wenn die Region mit minimalen Ressourcen zur Unterstützung der Wiederherstellung versehen sei.
Dieser Schutz koste nur 5 Prozentpunkte mehr als ein Zonenschutz mit zwei parallell laufenden Systemen (aktiv-aktiv). Die Schlussfolgerung vom Uptime Institute: Auch wenn der Ausfall von Regionen deutlich seltener vorkomme als der Ausfall von Zonen, lohne es sich in vielen Fällen, über stabilere Anwendungen im Bereich der Regionen nachzudenken.
Nur geringe Kostenunterschiede (30 Prozentpunkte) haben die Uptime-Analysten auch beim Vergleichen von aktiv-aktiven und aktiv-passiven („fail-over“) Architekturen festgestellt. Deshalb raten sie dazu, „aktiv-aktiv“ als sichere Variante zu nehmen und nicht am falschen Platz zu sparen.
Schließlich deckten die Entschädigungszahlungen im Havariefall die tatsächlichen geschäftlichen Schäden nur minimal ab.
Schwierige Rahmenbedingungen für die Quantifizierung
Der Ausfall von Cloud-Services ist für Nutzerinnen und Nutzer laut Uptime Institute immer ein Desaster. Wenn eine Havarie auftrete, sei es in der Verantwortung der Nutzerinnen, die Ausfallzeit zu messen und die Entschädigung anzufordern, diese werde keineswegs automatisch geleistet.
In der Regel müssten die Nutzer einen Antrag mit Serviceprotokollen stellen, um den Ausfall zu belegen. Und wenn der Cloud-Anbieter den Antrag genehmige, werde die Entschädigung in Form von Dienstgutschriften und nicht in bar angeboten. Angesichts dieser Bürokratie und den meist schmalen Entschädigungen müssten die Nutzerinnen im Falle des Falles abwägen, ob der große Aufwand den geringen Ertrag überhaupt rechtfertige.
Auch aus anderen Gründen sind Kosten-Nutzen-Rechnungen im Bereich Ausfallsicherheit bei Cloud-Services beziehungsweise Cloud-Anwendungen nach Einschätzung der Uptime-Spezialisten ein schwieriges Ding. Zwar scheine es aus einer rationalen Perspektive klar, dass der Aufbau von Architekturen über Verfügbarkeitszonen und Regionen hinweg zwangsläufig widerstandsfähiger sein müsse als für eine einzelne VM in einer einzigen Zone. Es sei aber eine große Herausforderung, diese Vernunfteinsicht mit einem hohen Maß an Genauigkeit zu quantifizieren.
Die SLAs und Entwurfsarchitekturen der Cloud-Anbieter seien nämlich mitnichten so konzipiert, dass sie einen guten Überblick über die Ausfallsicherheit böten. Außerdem sei die Transparenz der Infrastruktur der Cloud-Anbieter sowie deren Resilienz meist nur dürftig ausgeprägt, so dass eine genaue Zuverlässigkeitsbetrachtung von außen kaum möglich sei.
So gebe es beispielsweise keine veröffentlichten Metriken zur Wiederherstellungszeit oder durchschnittlichen Reparaturzeit. Insofern könnten sich Anwender nicht „mit wissenschaftlicher Exaktheit“ dem Problem nähern, sondern seien darauf angewiesen, herauszufinden, „was wahrscheinlich funktioniert“.
Die hier vorgestellte neue Studie hilft zumindest bei der Spurensuche.
(ID:48580259)