Chers clients,
Nous revenons ce jour sur l’incident backbone que nous avons subi le 10 août dernier. Celui-ci a fortement perturbé la fourniture de nos services pour de nombreux clients, et nous tenions à vous expliquer plus en détail les circonstances qui ont mené au problème.
Défaillance initiale
Vers 15h00 (13h00 UTC) nous avons constaté une coupure des services de connectivité fournis par Zayo sur nos sites de Courbevoie et Saint Denis, qui n’ont été rétabils que vers 16h30. Nous n’avons pas encore reçu d’information détaillée sur l’origine du problème, mais elle semble liée à un incident majeur sur l’un de leurs routeurs.
Facteur agravant
Bien que les liaisons en question soient redondées avec les services d’autres fournisseurs, nous avons découvert à cette occasion que le service de filtrage DDoS récemment mis en place avec Cloudflare n'était pas configuré correctement pour acheminer notre trafic en cas de telle défaillance. Ce cas très dégradé n’avait pas pas été testé “en prodution” lors du setup du service il y a quelques semaines, du fait de l’impact que cela aurait eu sur la prodution, et dans la mesure où la configuration avait été discutée et validée par notre partenaire.
Il s’avèrera en outre que notre partenaire a mis plus d’une heure à revenir vers nous lors du signalement de l’incident, ralentissant ainsi notre rapidité d’action.
Impact
Nos équipes se sont attachées, durant toute la durée de l’incident, à mettre progressivement en place des solutions de contournement, afin de rendre nos services accessibles “en direct”, sans Cloudflare. Ainsi, suivant les services utilisés et le mécanisme de connection, la durée d’impact a pu aller de quelques minutes (pour ceux de nos clients disposant d’une connexion directe SDSL ou fibre) à près d’1h30.
Nous avons par ailleurs remarqué que certains clients disposant de liaisons “Axialys”, sur lesquels un tel événement n’aurait pas dû avoir un impact important, avaient également de leur côté des configurations inefficaces car non conformes ou incomplètes. Si c’est votre cas, nous vous prions de prendre contact avec votre correspondant CSM afin d’organiser une revue de votre configuration réseau.
Actions corerctives
Bien que la défaillance des liens Zayo soit l’origine du problème, notre infrastructure était en principe conçue pour résister à un tel scénario. L’analyse plus poussée des configurations chez Cloudflare a montré qu’elle n'était pas conforme à nos souhaits, ce qui a été corrigé ces derniers jours.
En conséquent, il apparait nécessaire de tester de façon plus exhaustive les cas de défaillances, même avec risque d’impact, afin de garantir que nos PCA seront efficaces en cas de besoin, et nous travaillons à établir un planning de tests dans les mois à venir.
Enfin, pour ceux de nos clients équipés de liaisons “Axialys”, il sera également important de réaliser des tests de coupure alternatifs (ilaison Axialys / connectivité tierce) afin de garantir que le service Axialys demeure accessible dans chacun des deux cas.
Nous vous renouvelons nos excuses pour ces dysfonctionnements, en vous assurant de notre engagement à vous fournir un service de qualité. Vos correspondants habituels sont à votre disposition pour vous fournir d’avantage d’informations.