Analyse post-mortem :
Vers 11h20 ce matin une opération administrative de routine a été conduite sur l'un des serveurs de bases de données servant notre plate-forme Voice Management. Cette opération, normalement anodine, a provoqué un fort ralentissement général du serveur concerné, impactant certains aspects du fonctionnement du bandeau opérateur.
Dans ces conditions un redémarrage du serveur concerné a été effectué. Ceci a obligé la plupart des utilisateurs de la plate-forme à initier une reconnexion. Ces nombreuses reconnexions simultanées ont à leur tour surchargé un autre composant, et un timeout trop court dans le processus de connexion a conduit à une multiplication des requêtes, surchargeant d'autant plus le système.
Ce n'est que vers midi que la situation a pu être réellement stabilisée pour tous nos clients.
Remédiation :
Plusieurs actions seront menées dans les prochains jours afin de prévenir à l'avenir la ré-occurence d'un incident similaire :
Nous vous présentons nos excuses pour ce dysfonctionnement, et vous assurons de notre engagement à vous fournir un service de qualité.