Am 5. Februar 2025 kam es zwischen 04:21 Uhr und 13:20 Uhr zu einer unerwarteten Störung, die zum Ausfall unserer Services führte.
Ursachenanalyse
Technische Probleme bei den Kühlanlagen unseres Datacenter-Partners führten in der Nacht zu einem plötzlichen, drastischen und anhaltenden Temperaturanstieg, woraufhin ein Teil unserer Systeme automatisch heruntergefahren wurde. Beim anschliessenden Neustart zeigte sich, dass mehrere zentrale Komponenten (Switches) nicht mehr einwandfrei funktionierten. Um die Systeme stabil und sicher wiederherzustellen, war der Ersatz dieser Hardware notwendig, was die (Wieder-) Inbetriebnahme leider verzögerte.
Massnahmen
Neben der technischen Analyse in Zusammenarbeit mit dem Rechenzentrumsbetreiber evaluieren wir Massnahmen, um vergleichbare Vorfälle künftig zu vermeiden. Zusätzlich optimieren wir unsere Kommunikationsprozesse – insbesondere für Szenarien, in denen auch unsere Statusseite betroffen ist. Eine Option ist, diese unabhängig vom restlichen System zu hosten, um künftig auch in solchen aussergewöhnlichen Fällen schneller und zuverlässiger informieren zu können.
Alle Systeme sind mittlerweile wieder vollständig verfügbar.
Für die entstandenen Unannehmlichkeiten bitten wir um Entschuldigung.