Der Ausfall der Amazon Web Services (AWS) zeigt die schlechte Systemarchitektur von Instagram
Auf Grund eines erneuten Ausfalls der Amazon Web Services (AWS) vom 29.06.12 bis 30.06.12 hatten viele Services, darunter populäre Seiten wie Pinterest, Netflix, Instagram und Heroku mit Problemen zu kämpfen. Wohingegen auf Netflix und Pinterest, zumindest hier aus Europa, zugegriffen werden konnte, war Instagram vollständig down. Auf Twitter begann währenddessen eine Wut-Welle gegen die Amazon Web Services, weil das geliebte Instagram nicht genutzt werden konnte. Von Cloud Computing und Marketing Bullshit war die Rede. Was die Nutzer natürlich nicht wissen konnten, es war die schlechte Systemarchitektur von Instagram selbst, die dafür gesorgt hat, dass der Bilderservice nicht erreichbar war.
Schwere Stürme führten zu dem Ausfall
Grund für den Stromausfall waren laut dem Stromversorger Dominion Virginia Power schwere Stürme mit 80 Meilen pro Stunde, die zu massiven Schäden geführt haben. Dominion Virginia Power versorgt mehrere Rechenzentren in der Region Virginia. Infolgedessen viel die Stromversorgung für das Amazon Rechenzentrum aus, was erneut zu einer Kaskade von Problemen innerhalb der einzelnen Services der Amazon Cloud führte.
A line of severe storms packing winds of up to 80 mph has caused extensive damage and power outages in Virginia. Dominion Virginia Power crews are assessing damages and will be restoring power where safe to do so. We appreciate your patience during this restoration process. Additional details will be provided as they become available.
Zahlreiche Amazon Services betroffen
Der Ausfall betraf dieses Mal deutlich mehr Services, als noch bei dem Ausfall vor zwei Wochen. Darunter Amazon CloudSearch, Amazon CloudWatch, Amazon Elastic Compute Cloud, Amazon Elastic MapReduce, Amazon ElastiCache, Amazon Relational Database Service und AWS Elastic Beanstalk.
Instagram nutzt nur eine Region
Von dem Ausfall war nur die Availability Zone US-EAST-1 betroffen, die sich in North Virginia befindet. Alle anderen weltweit verteilten Amazon Regionen zeigten keine Fehler und liefen weiterhin stabil. Anders als von dem Ausfall betroffene Anbieter wie Netflix oder Pinterest, war Instagram weltweit überhaupt nicht erreichbar. Das führt eindeutig zu dem Ergebnis, dass Instagram seine Systeme ausschließlich in dieser einen Amazon Region, der US-EAST-1, laufen lässt. Die Entscheider und Systemarchitekten müssen sich daher die Frage gefallen lassen, warum ein mittlerweile so populärer Dienst, der für 1 Milliarde US-Dollar an Facebook verkauft wurde, nicht hochverfügbar ausgelegt ist, indem die Systeme über mehrere Regionen bzw. Availability Zones in der Amazon Cloud verteilt sind. Scheinbar hat Instagram aus den Fehlern anderer Amazon Kunden nicht gelernt, die von den bisherigen Ausfällen betroffen waren.
Für den Fehlerfall vorbereitet sein
Selbstverständlich darf man Amazon von diesem erneuten Ausfall auf keinen Fall freisprechen. Die Region US-EAST-1 in North Virginia scheint zum Problemkind zu werden. Dennoch weißt Amazon regelmäßig und vehement darauf hin: “Design for failure!”
Hierfür hat das Unternehmen eine Webseite geschaffen, auf der Whitepapers zum Download bereitstehen, die dabei helfen, fehlertolerante Anwendungen zu entwickeln und Cloud Architekturen zu verstehen. Dazu gehören u.a. die Folgenden.
AWS Cloud Architecture Best Practices Whitepaper
Dieses Whitepaper gibt einen technischen Überblick aller AWS Services und verschiedener Best Practice Ansätze für die architektonische Gestaltung, um damit effiziente und skalierbare Architekturen zu entwerfen.
Link
Building Fault-Tolerant Applications on AWS Whitepaper
In diesem Whitepaper werden Funktionen für die Erhöhung der Fehlertoleranz vorgestellt, die dazu dienen, um hoch zuverlässige und hochverfügbare Anwendungen innerhalb der AWS Cloud zu entwickeln.
Link
Web Hosting Best Practices Whitepaper
Dieses Whitepaper überprüft detailliert Lösungen für das Web Application Hosting. Dazu gehört unter anderem, wie jeder AWS Service genutzt werden kann, um eine hochverfügbare und skalierbare Webanwendung zu entwerfen.
Link
Leveraging Different Storage Options in the AWS Cloud Whitepaper
Dieses Whitepaper dient dazu, einen Überblick über die Speichermöglichkeiten in der AWS Cloud zu geben und darüber hinaus Szenarien vorzustellen, um eine effektive Nutzung zu erzielen.
Link
AWS Security Best Practices Whitepaper
In diesem Whitepaper werden bestimmte Tools, Funktionen und Richtlinien beschrieben, um zu verstehen, wie Cloud Anwendungen innerhalb der AWS Infrastruktur von Grund auf geschützt werden können.
Link
Netflix und sein Chaos Monkey
Ein Grund warum Netflix ein so robustes und hochverfügbares System auf der Amazon Cloud betreibt, ist der selbst entwickelte und sogenannte Chaos Monkey. Der Chaos Monkey hilft Netflix dabei sicherzustellen, dass alle einzelnen Komponenten unabhängig voneinander arbeiten. Dazu zerstört der Chaos Monkey wahllos Instanzen und Services innerhalb der Netflix AWS Infrastruktur, um seinen Entwicklern dabei zu helfen, zu gewährleisten, dass jede einzelne Komponente antwortet, auch wenn die System-Abhängigkeiten nicht einwandfrei funktionieren.
Category: Analysen
About the Author (Author Profile)
Rene Buest is Principal Analyst and Senior Advisor at renebuest research, covering cloud computing, business technology and collaboration. He is member of the GigaOm Pro Analyst Network and top cloud computing blogger in Germany. Worldwide he is one of the top 50 bloggers in this area. For more than 16 years he is focused on the strategic use of information technology in businesses and the IT impact on our society as well as disruptive technologies. Rene Buest is the author of numerous professional cloud computing and technology articles, speaker and participant of experts rounds. On CloudUser.de he writes about topics from the fields of cloud computing, it-infrastructures, technologies, management and strategies and is moving on Twitter via his account @ReneBuest. Rene Buest is organizer of numerous cloud computing and technology events. Covering the CloudCamp Hamburg 2010, CloudCamp Frankfurt 2012, CloudOps Summit 2012 and the Amazon Web Services and Windows Azure User Groups in Germany. Rene Buest is a fully qualified specialist for system integration und holds a diploma in computer engineering from the Hochschule Bremen (Dipl.-Informatiker (FH)) as well as a M.Sc. in IT-Management and Information Systems from the FHDW Paderborn. Detailed curriculum vitaes are hosted on XING and LinkedIn.Comments (21)
Trackback URL | Comments RSS Feed
Sites That Link to this Post
- Zweifel an der Sicherheit von Amazons Cloud - Artikel | Datenwölckhen | Juli 3, 2012
- Der Amazon Web Services (AWS) Ausfall: Letzte Chance – So etwas darf nicht noch einmal passieren! › CloudUser | Juli 8, 2012
- Netflix: Der Chaos Monkey und die Simian Army – Das Vorbild für eine gute Cloud Systemarchitektur › CloudUser | Juli 9, 2012
- Hochverfügbarkeit und Skalierbarkeit entstehen nicht von alleine | CloudOps Summit 2012 | Juli 19, 2012
- Netflix veröffentlicht seinen Chaos Monkey › CloudUser | Juli 30, 2012
- Schuldzuweisungen in Zeiten des Cloud Computing › CloudUser | Oktober 3, 2012
- Amazon Web Services (AWS) Ausfall: Erklärungen | Erster Kunde geht | Netflix hält die Treue | Okta versteht die Cloud-Architektur › CloudUser | November 6, 2012
- Erneuter Ausfall der Amazon Web Services zeigt, dass Cloud Nutzer nicht aus den eigenen Fehlern lernen › CloudUser | November 6, 2012
- IaaS: Sie selbst sind für die Hochverfügbarkeit und Skalierbarkeit verantwortlich › CloudUser | November 19, 2012







English
Deutsch 



Hi Rene, da kann ich nur auf die Design Guidelines verweisen: http://cloudcomputing.sys-con.com/node/2280656 wenn man diese Prinzipien einhält hat man schon einiges gewonnen ;)
lg Mario