Verbindung offline
Bekannt war bereits, dass die routinemäßige Wartung fehlgeschlagen war. Dadurch war eine wichtige Verbindung zwischen den GitHub-Infrastrukturgeräten 43 Sekunden lang offline, erläutert Jason Warner jetzt in dem im Github-Blog verfügbaren Beitrag.Dieser Ausfall in den Verbindungen konnte zwar schnell behoben werden, er verursachte aber eine Kaskade von weiteren Problemen. Die Github-Ingenieure erkannten laut Warner dann sehr schnell, dass der Ausfall inkonsistente Benutzerdaten verursacht hatte.
Lang und sicher
Dadurch sah man sich vor einem weiteren Problem: Sollte man eine schnelle Wiederherstellung nutzen, die sehr wahrscheinlich einen Teil der Benutzerdaten zerstören würde, oder sollte man den langen Wiederherstellungsprozess wählen, der zwar lang dauern würde, aber alle Daten retten könnte. Github entschied sich für den zweiten Weg, verpasste es aber zeitnah, das auch so mitzuteilen.Nun entschuldigt sich Warner im Namen von Github:
"Mit diesem Vorfall haben wir Sie enttäuscht, und es tut uns zutiefst leid. Während wir die Probleme nicht rückgängig machen können, die dadurch entstanden sind, dass die Plattform von GitHub über einen längeren Zeitraum hinweg nicht nutzbar war, können wir die Ereignisse erklären, die zu diesem Vorfall geführt haben, die Lehren, die wir gezogen haben, und die Schritte, die wir als Unternehmen unternehmen, um sicherzustellen, dass sich dies nicht wiederholt."