Amazon Web Services (AWS) Ausfall: Erklärungen | Erster Kunde geht | Netflix hält die Treue | Okta versteht die Cloud-Architektur

[ 13 ] Juli 7, 2012 |

Nach dem erneuten Ausfall von Teilen der Amazon Web Services (AWS) am vergangenen Freitag und Samstag, von denen große Webseiten und Services wie Netflix und Instagram betroffen waren, gab es in dieser Woche neben einer Stellungnahme von Amazon, ebenfalls Reaktionen von Kunden, die zeigen, dass der Geduldsfaden langsam reißt. Allerdings sind auch selbstkritische Töne zu hören.

Amazon erläutert das Problem

Während einer Stellungnahme am Montag erklärte Amazon, dass seine Rechenzentren an der Ostküste der USA von einem Gewitter am Freitag (29.06.12) betroffen waren. Während die Notstromversorgung bei den meisten wie erwartet funktionierte, kam es bei einem einzigen erneut zu einer Fehlfunktion bei der redundanten Stromversorgung. Der daraus resultierte Stromausfall beeinflusste “eine einstellige Prozentzahl an Kunden”. Darunter Instagram, Netflix, Pinterest, Quora, Heroku und Hootsuite.

Erster Kunde verlässt die Amazon Cloud

Wie die InformationWeek berichtet, hat mit Whatsyourprice.com, einem Online Dating Service, der erste AWS Kunde die Konsequenzen aus dem Ausfall am 29.06/ 30.06 gezogen und seine 10 virtuellen Server in eine Co-Location in Las Vegas umgezogen. Neben dem kürzlichen Ausfall war Whatsyourprice.com bereits vom zwei Stündigen Ausfall am 14.06.12 betroffen. Hinzu kam, dass der letzte Ausfall gerade zu einer Zeit eintrat, während nach Angaben des Unternehmens typischerweise viele Singles online sind.

Laut Whatsyourprice.com basierte die Systemarchitektur auf zwei Availability Zones. Dennoch war das Unternehmen nicht in der Lage neue Instanzen in der nicht von dem Ausfall betroffenen Availability Zone zu starten. Whatsyourprice.com kann sich diesen Umstand nicht erklären, da sie ihrer Meinung nach alles richtig gemacht haben und werden auf Grund dieser Situation nicht mehr auf Amazon EC2 setzen.

Netflix hält die Treue

Netflix, die auch von dem Ausfall betroffen waren, werden der Amazon Cloud hingegen nicht den Rücken kehren. Wie das Unternehmen auf seinem Blog schreibt, hat der Ausfall ein paar Schwächen in seiner Architektur aufgezeigt, die ebenfalls den Chaos Monkey überlistet haben. So habe die eigene Load-Balancing Architektur das gesamte Problem während des Ausfalls noch verstärkt.

Dennoch wird Netflix weiterhin auf die (Amazon) Cloud setzen, da der Service seit dem Wechsel in die Cloud eine bessere Uptime hat als zuvor. Zudem sei die eigene Architektur so ausgelegt, dass ein Ausfall von AWS davon nicht beeinflusst wird. Dafür achtet Netflix darauf, die Services weltweit zu verteilen. Während des Ausfalls in der Region US-EAST, konnten europäische Kunden den Services trotzdem nutzen. Darüber hinaus setzt Netflix auf Cassandra, einem Distributed Cloud Storage, der über alle AWS Zonen und Regionen verteilt ist. Cassandra sorgt dafür, dass der Verlust von einem Drittel aller Nodes innerhalb einer Region aufgefangen wird, ohne Daten zu verlieren oder die Verfügbarkeit zu beeinflussen.

Bitte: Nicht den Fehler von Instagram machen

Netflix selbstkritische Analyse sollte sich auch Instagram oder besser Facebook zu Herzen nehmen. Mich wundert, warum die schlechte Systemarchitektur von Instagram während der Due-Diligence-Prüfung durch Facebook bei der 1,5 Milliarden Dollar hohen Übernahme nicht aufgefallen ist.

Okta, ein Cloud basierter Identity Management Service, setzt ebenfalls auf die Cloud Infrastruktur der Amazon Web Services und war für seine Kunden weltweit zu 100% verfügbar. Das schreibt Okta VP Eric Berg auf dem Unternehmensblog. Demnach sei die Systemarchitektur so konzipiert, dass einzelne Komponenten ohne Weiteres zu jeder Zeit ausfallen können. In diesem Fall werden die Anfrage zu einem funktionsfähigen System “irgendwo auf der Welt” weitergeleitet. An dieser Stelle sehen wir wieder einmal, dass Cloud Computing nicht bedeutet, einfach nur einen virtuellen Server hochzufahren!


Bildquelle: http://apod.nasa.gov

Tags: , , , , , , , , ,

Category: Analysen

About the Author ()

Rene Buest is Senior Analyst and Cloud Practice Lead at Crisp Research, covering cloud computing and IT infrastructure. He is member of the worldwide Gigaom Research Analyst Network, top cloud computing blogger in Germany and one of the worldwide top 50 bloggers in this area. In addition, he is one of the world’s top cloud computing influencers and belongs to the top 100 cloud computing experts on Twitter. For more than 16 years he is focused on the strategic use of information technology in businesses and the IT impact on our society as well as disruptive technologies. Rene Buest is the author of numerous professional cloud computing and technology articles, speaker and participant of experts rounds. On CloudUser.de he writes about topics from the fields of cloud computing, it-infrastructures, technologies, management and strategies. He holds a diploma in computer engineering from the Hochschule Bremen (Dipl.-Informatiker (FH)) as well as a M.Sc. in IT-Management and Information Systems from the FHDW Paderborn.

Leave a Reply

You must be logged in to post a comment.