Chers clients,
Nous revenons vers vous au sujet de l’incident du lundi 11 avril.
Résumé chronologique
À partir de 10h environ nous avons détecté des pertes de paquets sur certaines parties de notre backbone. Ces pertes de paquets au départ modestes, ont progressivement augmenté pour atteindre 8 à 10%.
Outre l’impact immédiat sur la qualité des appels, ces pertes de paquets ont eu un effet sur deux autres composants de notre infrastructure, détaillés ci-après, impactant plus spécifiquement nos services de Trunk SIP et de Voice Management, à partir de 10h30 environ.
Nos ingénieurs ont travaillé à remédier ces soucis (causes et conséquences), avec un retour progressif à la normale des services impactés entre 10h45 et 11h20 enrivon.
Impact
Les pertes de paquets ont provoqué des ralentissements de plusieurs services internes, qui ont eux-même provoqué la multiplication de certains flux (tentatives renouvelées de connexion, etc), aboutissant à la saturation :
Ces saturations étant causées par l’atteinte de limites de capacité “soft”, elles ont pu être remédiées par paramétrage.
Causes originelles
Il est apparu que les pertes de paquets rencontrées sur 2 de nos routeurs backbones étaient consécutives à une mise à jour de sécurité réalisée (sans impact) dans la nuit du jeudi 7 au vendredi 8, mise à jour qui a provoqué un changement de paramétrage sur les routeurs concernés (activation de fonctionnalités inutiles et consommatrices en CPU). Les CPUs des routeurs en question se sont trouvés partiellement saturés par le trafic réseau plus important qu’là l’habituelle ce lundi matin, provoquant les pertes de paquets.
Remédiation
L’impact opérationnel l le plus important a été secondaire, par l’atteinte sur les services indiqués ci-dessus de limites de sécurité qui se sont avérées trop justes pour faire face à cette situation anormale. Nous avons ré-évalué ces limites sur la base des capacités effectives des systèmes concernés, environ 10x plus élevées que les limites d’origine (elles-mêmes situées environ à 200% de l’usage pic moyen).
Nous avons par ailleurs revu notre procédure de mise à jour sur nos routeurs pour inclure un test au minimum à 3x la charge (paquets par seconde et bande passante).
En savoir plus
Vos interlocuteurs habituels se tiennent à votre disposition pour répondre à vos question et vous fournir des informations plus détaillées sur la nature et l’organisation des opérations à venir.
Nous vous présentons nos excuses pour cet incident dont nous sommes pleinement conscients de l’impact sur votre activité et vous assurons de notre engagement à vous fournir des solutions au meilleur niveau de fiabilité.