Pertes de paquets réseau et incidents Voice Magement / trunk SIP
Incident Report for Axialys
Postmortem

Chers clients,

Nous revenons vers vous au sujet de l’incident du lundi 11 avril.

Résumé chronologique

À partir de 10h environ nous avons détecté des pertes de paquets sur certaines parties de notre backbone. Ces pertes de paquets au départ modestes, ont progressivement augmenté pour atteindre 8 à 10%.

Outre l’impact immédiat sur la qualité des appels, ces pertes de paquets ont eu un effet sur deux autres composants de notre infrastructure, détaillés ci-après, impactant plus spécifiquement nos services de Trunk SIP et de Voice Management, à partir de 10h30 environ.

Nos ingénieurs ont travaillé à remédier ces soucis (causes et conséquences), avec un retour progressif à la normale des services impactés entre 10h45 et 11h20 enrivon.

Impact

Les pertes de paquets ont provoqué des ralentissements de plusieurs services internes, qui ont eux-même provoqué la multiplication de certains flux (tentatives renouvelées de connexion, etc), aboutissant à la saturation :

  1. d’un firewall protégeant les services de Trunk SIP, provoquant des échecs d’appels entrants et/ou srotants.
  2. d’un cluster de load balancers gérant les services de donnés du Voice Management, provoquant un blocage de grand ampleur dans le traitement des appels

Ces saturations étant causées par l’atteinte de limites de capacité “soft”, elles ont pu être remédiées par paramétrage.

Causes originelles

Il est apparu que les pertes de paquets rencontrées sur 2 de nos routeurs backbones étaient consécutives à une mise à jour de sécurité réalisée (sans impact) dans la nuit du jeudi 7 au vendredi 8, mise à jour qui a provoqué un changement de paramétrage sur les routeurs concernés (activation de fonctionnalités inutiles et consommatrices en CPU). Les CPUs des routeurs en question se sont trouvés partiellement saturés par le trafic réseau plus important qu’là l’habituelle ce lundi matin, provoquant les pertes de paquets.

Remédiation

L’impact opérationnel l le plus important a été secondaire, par l’atteinte sur les services indiqués ci-dessus de limites de sécurité qui se sont avérées trop justes pour faire face à cette situation anormale. Nous avons ré-évalué ces limites sur la base des capacités effectives des systèmes concernés, environ 10x plus élevées que les limites d’origine (elles-mêmes situées environ à 200% de l’usage pic moyen).

Nous avons par ailleurs revu notre procédure de mise à jour sur nos routeurs pour inclure un test au minimum à 3x la charge (paquets par seconde et bande passante).

En savoir plus

Vos interlocuteurs habituels se tiennent à votre disposition pour répondre à vos question et vous fournir des informations plus détaillées sur la nature et l’organisation des opérations à venir.

Nous vous présentons nos excuses pour cet incident dont nous sommes pleinement conscients de l’impact sur votre activité et vous assurons de notre engagement à vous fournir des solutions au meilleur niveau de fiabilité.

Posted Apr 13, 2022 - 08:53 CEST

Resolved
Nous n'avons pas constaté d'autres perturbations et confirmons la fin de l'incident entre 11h15 et 11h30 suivant les cas.
Posted Apr 11, 2022 - 16:35 CEST
Monitoring
La situation est à priori revenue à la normale sur tous les services, mais nous continuons de monitorer.
Posted Apr 11, 2022 - 11:38 CEST
Identified
Nous observons toujours des pertes de paquets sur certains segments réseaux, ce qui perturbe certains services, nous poursuivons nos investigations.
Posted Apr 11, 2022 - 11:06 CEST
Monitoring
Le problème spécifique au Voice Management vient d'être corrigé et la situation se normalise. Nous monitorons la situation.
Posted Apr 11, 2022 - 10:52 CEST
Update
Nous avons corrigé le souci réseau, mais l'infrastructure Voice Management est toujours impactée, avec beaucoup d'appels bloqués. Nous travaillons à rétablir le service.
Posted Apr 11, 2022 - 10:49 CEST
Investigating
Bonjour,

Certains clients nous signalent ce matin des pertes de paquets impactant notamment la qualité de certains appels.

Le sujet est en cours d'investigation.
Posted Apr 11, 2022 - 10:22 CEST
This incident affected: Voice Management - Services Telecom, Plate-forme Centrex, and Trunk SIP.