In deze aflevering duiken we in de boeiende postmortem van Reddit's Pi-Day outage. Op 14 maart 2023, midden in een Reddit-upgrade, ging het grondig mis. Een onverwachte Kubernetes-upgrade zorgde voor problemen met een 314-minuten durende uitval.
In deze aflevering duiken we in de boeiende postmortem van Reddit's Pi-Day outage. Op 14 maart 2023, midden in een Reddit-upgrade, ging het grondig mis. Een onverwachte Kubernetes-upgrade zorgde voor problemen met een 314-minuten durende uitval.
💡 Belangrijkste Punten:
Kubernetes Upgrades & Risico's: We bespreken hoe upgrades, vooral naar Kubernetes 1.24, riskant kunnen zijn en de uitdagingen bij downgrades zonder een gestandaardiseerde procedure.
Backup & Restore Avontuur: Ontdek de angstige momenten van het overwegen van een backup-restoreprocedure, de complexiteit ervan en de verbeteringen die nodig zijn.
Route Reflectors & Inconsistent Configuraties: Een diepere duik in het specifieke probleem van route reflectors en de verrassende impact van Kubernetes-node labels, waarbij inconsistentie de kern van het probleem is.
🔍 Onderzoek naar de Oorzaak: Leer hoe het team door logs en metrics navigeerde om de oorzaak van de uitval te achterhalen, met onverwachte ontdekkingen onderweg.
Druk op play en duik mee in het fascinerende verhaal achter Reddit's Pi-Day-outage in Aflevering 41! 🌐🔒