Incident backbone
Incident Report for Axialys
Postmortem

Chers clients,

Nous revenons ce jour sur l’incident backbone que nous avons subi le 10 août dernier. Celui-ci a fortement perturbé la fourniture de nos services pour de nombreux clients, et nous tenions à vous expliquer plus en détail les circonstances qui ont mené au problème.

Défaillance initiale

Vers 15h00 (13h00 UTC) nous avons constaté une coupure des services de connectivité fournis par Zayo sur nos sites de Courbevoie et Saint Denis, qui n’ont été rétabils que vers 16h30. Nous n’avons pas encore reçu d’information détaillée sur l’origine du problème, mais elle semble liée à un incident majeur sur l’un de leurs routeurs.

Facteur agravant

Bien que les liaisons en question soient redondées avec les services d’autres fournisseurs, nous avons découvert à cette occasion que le service de filtrage DDoS récemment mis en place avec Cloudflare n'était pas configuré correctement pour acheminer notre trafic en cas de telle défaillance. Ce cas très dégradé n’avait pas pas été testé “en prodution” lors du setup du service il y a quelques semaines, du fait de l’impact que cela aurait eu sur la prodution, et dans la mesure où la configuration avait été discutée et validée par notre partenaire.

Il s’avèrera en outre que notre partenaire a mis plus d’une heure à revenir vers nous lors du signalement de l’incident, ralentissant ainsi notre rapidité d’action.

Impact

Nos équipes se sont attachées, durant toute la durée de l’incident, à mettre progressivement en place des solutions de contournement, afin de rendre nos services accessibles “en direct”, sans Cloudflare. Ainsi, suivant les services utilisés et le mécanisme de connection, la durée d’impact a pu aller de quelques minutes (pour ceux de nos clients disposant d’une connexion directe SDSL ou fibre) à près d’1h30.

Nous avons par ailleurs remarqué que certains clients disposant de liaisons “Axialys”, sur lesquels un tel événement n’aurait pas dû avoir un impact important, avaient également de leur côté des configurations inefficaces car non conformes ou incomplètes. Si c’est votre cas, nous vous prions de prendre contact avec votre correspondant CSM afin d’organiser une revue de votre configuration réseau.

Actions corerctives

Bien que la défaillance des liens Zayo soit l’origine du problème, notre infrastructure était en principe conçue pour résister à un tel scénario. L’analyse plus poussée des configurations chez Cloudflare a montré qu’elle n'était pas conforme à nos souhaits, ce qui a été corrigé ces derniers jours.

En conséquent, il apparait nécessaire de tester de façon plus exhaustive les cas de défaillances, même avec risque d’impact, afin de garantir que nos PCA seront efficaces en cas de besoin, et nous travaillons à établir un planning de tests dans les mois à venir.

Enfin, pour ceux de nos clients équipés de liaisons “Axialys”, il sera également important de réaliser des tests de coupure alternatifs (ilaison Axialys / connectivité tierce) afin de garantir que le service Axialys demeure accessible dans chacun des deux cas.

Nous vous renouvelons nos excuses pour ces dysfonctionnements, en vous assurant de notre engagement à vous fournir un service de qualité. Vos correspondants habituels sont à votre disposition pour vous fournir d’avantage d’informations.

Posted Aug 19, 2021 - 08:30 CEST

Resolved
This incident has been resolved.
Posted Aug 19, 2021 - 07:36 CEST
Monitoring
L'incident chez notre fournisseur semble terminé depuis 16:28, ce qui devrait corriger les soucis encore rencontrés par certains clients.
Posted Aug 10, 2021 - 16:40 CEST
Update
Le souci de backbone est consécutif à la perte simulatnée de deux liens du même opérateur.
Nous avons mitigé notre trafic pour contourner ces liaisons. Les clients pour qui la connexion est toujours impossible peuvent utiliser l'URL de secours du Voice Management https://voice-management-direct.axialys.com/
Nous continuons de travailler sur le problème d'origine.
Posted Aug 10, 2021 - 15:45 CEST
Investigating
Nous subissons actuellement d'importantes perturbations sur notre backbone internet. Nous travaillons à identifier la cause de ce dysfonctionnement.
Posted Aug 10, 2021 - 15:09 CEST
This incident affected: Voice Management - APIs, Voice Management - interfaces web, Voice Management - Services Telecom, Services data - liaisons DSL/Fibre, Plate-forme Centrex, and Trunk SIP.