Google war down: So kam es zum mehrstündigen Ausfall vieler Google-Dienste am Sonntagabend

google 

Am Sonntag gingen bei Google und einigen anderen Online-Diensten für viele Nutzer plötzlich die Lichter aus, denn zahlreiche Google-Dienste von Drive über YouTube bis GMail waren nicht erreichbar oder konnten nur sehr eingeschränkt genutzt werden. Tatsächlich hat es gut vier Stunden gedauert, bis die Ingenieure das Problem vollständig beheben konnten. Jetzt hat Google Details zu dem Ausfall veröffentlicht.


Googles Dienste sind normalerweise sehr zuverlässig und dauerhaft ohne größere Probleme zu erreichen – das gilt vor allem für die Cloud-Dienste, für die die Kunden Geld auf den Tisch legen und eine ständige Verfügbarkeit erwarten. Manchmal kommt aber Sand ins Getriebe, was zu kleineren und kurzzeitigen Ausfällen führen kann. Diesmal waren es aber große Steine, die das gesamte Räderwerk über Stunden lahmgelegt haben. Jetzt gibt es Details dazu.

google-logo-broken-more

Sonntag Abend, ab etwa 21:00 Uhr, waren viele Google-Dienste nicht erreichbar oder konnten nur schlecht erreicht werden. Der Ausfall äußerte sich je nach Region und Nutzer völlig unterschiedlich: Manche konnten Produkte wie GMail, Google Drive, YouTube oder teilweise auch die Websuche gar nicht nutzen, andere konnten nur einzelne Funktionen nicht verwenden, manche mussten längere Antwortzeiten in Kauf nehmen und bei wieder anderen gab es gar keine Probleme.

Einige Statistiken zum Ausfall:

  • YouTube measured a 10% drop in global views during the incident
  • Google Cloud Storage measured a 30% reduction in traffic
  • Approximately 1% of active Gmail users had problems with their account; while that is a small fraction of users, it still represents millions of users who couldn’t receive or send email
  • Low-bandwidth services like Google Search recorded only a short-lived increase in latency as they switched to serving from unaffected regions, then returned to normal

Das Problem konnte laut Googles Angaben „innerhalb von Sekunden“ entdeckt werden, war aber so weitreichend im eigenen Netzwerk, dass die Ingenieure selbst sehr lange darauf warten mussten, auf die eigenen Server zuzugreifen um die notwendigen Änderungen vorzunehmen. Das klingt zwar etwas merkwürdig, aber genau so wird es in den Details zu dem Ausfall beschrieben. Ursprünglich ausgelöst wurde es, wie so oft, von einem kleinen Konfigurationsfehler.



Eigentlich sollten nur sehr wenige Server neu konfiguriert werden, doch durch einen internen Fehler wurde das neue Setup auf sehr vielen Servern übernommen. Es heißt, statt einer „small number of servers in a single region“ wurde eine „larger number of servers across several neighboring regions“ neu konfiguriert. Das führte dann durch Schutzmechanismen im System dazu, dass Prioritäten gesetzt wurden und nicht mehr alle Daten durchkamen.

The network traffic to/from those regions then tried to fit into the remaining network capacity, but it did not. The network became congested, and our networking systems correctly triaged the traffic overload and dropped larger, less latency-sensitive traffic in order to preserve smaller latency-sensitive traffic flows, much as urgent packages may be couriered by bicycle through even the worst traffic jam.

Tatsächlich waren dann auch den Ingenieuren die Hände gebunden.

Once alerted, engineering teams quickly identified the cause of the network congestion, but the same network congestion which was creating service degradation also slowed the engineering teams’ ability to restore the correct configurations, prolonging the outage.

Und natürlich soll es nicht mehr vorkommen:

With all services restored to normal operation, Google’s engineering teams are now conducting a thorough post-mortem to ensure we understand all the contributing factors to both the network capacity loss and the slow restoration. We will then have a focused engineering sprint to ensure we have not only fixed the direct cause of the problem, but also guarded against the entire class of issues illustrated by this event.

» Artikel im Google Cloud-Blog

pixel 3a saturn aktion




Teile diesen Artikel:

Facebook twitter Pocket Pocket

comment 1 Kommentare zum Thema "Google war down: So kam es zum mehrstündigen Ausfall vieler Google-Dienste am Sonntagabend"

  • Danke für die Bestätigung, dass die sich selber ausgesperrt hatten und der arme unbezahlte Praktikant schuld war. Ob Google da noch Regressforderungen stellt?

    Jetzt habe ich meine Meinung geändert. Wir brauchen noch viel viel mehr Sicherheitseinrichtungen, damit die Technik Änderungen der Konfiguration erst gar nicht mehr zulässt. Nur noch Abschalten darf funktionieren.

Kommentare sind geschlossen.