Fehlerhafte Konfigurationsdatei: Google-Services waren 28 Minuten nicht erreichbar

google 

Der gestrige 24. Januar wird als längster technischer Ausfall aller Google-Service seit vielen Jahren in die digitalen Geschichtsbücher eingehen: Bis zu 1 Stunde waren GMail, Google+ der Calendar und auch das Drive und einige andere Angebote für bis zu 1 Stunde nicht erreichbar. Googles Techniker konnten das Problem schnell beheben, und haben im Blog nun die Ursache für den großflächigen Ausfall mitgeteilt.


In der Vergangenheit lag der Grund für einen längeren Ausfall einzelner oder mehrerer Services eher auf der Hardware-Seite und einem damit oft verbundenem Domino-Effekt, der einen Server nach dem anderen lahm legt. Der gestrige Ausfall hingegen wurde von einem Konfigurations-Server verursacht, der fehlerhafte Daten an alle anderen Live-Server verteilt hat und diese daraufhin nicht mehr problemlos oder teilweise gar nicht arbeiten konnten.

Google Data Centers

Um 10:55 amerikanischer Zeit hat der Konfigurationsserver eine fehlerhafte Datei erstellt, wobei aber derzeit noch nicht ganz klar zu sein scheint, wie das passieren konnte. Diese Datei wurde in den nächsten 15 Minuten an alle Live-Server verteilt, woraufhin diese dann keine angeforderten Daten mehr ausgeliefert haben – was daraufhin dazu geführt hat, dass die Google-Services der Reihe nach Fehler ausgeliefert haben bzw. gleich komplett Offline gegangen sind.

Das Google-Team wurde um 11:14 durch automatische Alarm-Systeme über den Fehler informiert und hat daraufhin wieder die vorherige Version der Konfigurationsdatei eingespielt, woraufhin die Server nach und nach wieder ihre Arbeit aufnehmen konnten. Um 11:30 war die korrekte Konfiguration wieder in alle Server eingespielt, so dass diese wieder problemlos erreichbar waren – also gut 28 Minuten nachdem Anfang des Ausfalls. Für etwa 10 Prozent der Nutzer war Google gar eine ganze Stunde nicht erreichbar.



Wie die fehlerhafte Konfigurationsdatei erstellt werden und durch die diversen Test-Systeme kommen konnte hat Google nicht mitgeteilt. Man entschuldigte sich für den Ausfall und hat für die Zukunft Besserung versprochen. Man wird das Konfigurationssystem weiter verbessern und noch mehr Test-Systeme vorschalten, außerdem sollen die Live-Server nicht mehr blind jede Konfiguration annehmen sondern diese ebenfalls testen. Auch das Monitoring soll verbessert werden, so dass das Team noch schneller informiert wird.

» Erklärung im Google-Blog



Teile diesen Artikel:

comment ommentare zur “Fehlerhafte Konfigurationsdatei: Google-Services waren 28 Minuten nicht erreichbar

Kommentare sind geschlossen.