Annonce

#1 2021-09-07 10:02:23

o2switch
o2switch
Lieu : Clermont-Ferrand
Inscription : 2014-06-17
Site Web

[07/09/2021] Incident Aligot

Bonjour,

Des problématiques ont été remonté à nos services dans le weekend concernant un node d'aligot.

Il était alors question d'une augmentation notable de l'IOWAIT sur un système sans raison particulière.
Le problème était alors présent par moment, sans explication technique. Généralement, ce type de problème peut avoir pour origine une défaillance du contrôleur disque -en l'absence- de consommation CPU.

De fait, ce Mardi 07/09/21 nous avons réalisé une maintenance d'urgence visant à remplacer totalement, physiquement, le serveur physique concerné.
L'opération a été réalisé en critère d'urgence afin d'éviter tout futur incident. Sa durée n'aurait pas dù excéder les 15mns.

Cependant, au remplacement le volume système a été détruit et contenait énormément d'erreurs. Les causes ne sont pas définies mais nous pensons à la piste du controlleur défaillant. Ceci conforte alors la nécessité d'une maintenance urgente non planifiée au préalable.

Nous avons donc été dans l'obligation de changer intégralement le volume concerné et de restaurer les données relatives.
Ceci a provoqué un délai imprévu, physique, le temps de restauration.

Aucune perte de données n'est à prévoir.
Le service redevient optimal.

Cordialement
Service Technique

Hors ligne