Annonce

#1 2021-06-02 02:08:12

o2switch
o2switch
Lieu : Clermont-Ferrand
Inscription : 2014-06-17
Site Web

[02/06/21] Incident node "citrus"

Bonjour,

Un serveur physique de "citrus" a rencontré des perturbations cette nuit ~1h00.
Nous suspectons une erreur matérielle.

- Le serveur est changé physiquement
- Les volumes systèmes sont clonés sur une grappe RAID neuve, sur des SSD neufs.

Le serveur reste en banc de tests pour la nuit.
L'ensemble des services est à nouveau fonctionnel.
Durée d'impact : 30mns à 60mns.

Le serveur concerné sera re-racké en salle le 02/06/21 en l'absence de nouvel incident.

Merci de votre fidélité et compréhension.
Service Technique,

Hors ligne

#2 2021-06-04 18:51:10

o2switch
o2switch
Lieu : Clermont-Ferrand
Inscription : 2014-06-17
Site Web

Re : [02/06/21] Incident node "citrus"

Bonjour,

Le problème s'est de nouveau manifesté ce jour, ~9h, 04/06/21 de manière différente :
- Ecran "rouge" au boot Linux, erreur mémoire kernel sans raison apparente (la machine étant 100% neuve en dehors de certains disques SSD)
- Erreur de chargement grub aléatoire.
- Disparition aléatoire des disques système..

De fait nous avons été contraint de lancer en urgence des opérations lourdes afin de corriger définitivement le problème :
- Mise en place d'un système Linux à neuf.
- Récupération, restauration de toutes les configurations à partir d'un backup.
- Reconstruction des raids secondaires.
Le délai de ses opérations dépendant alors directement des délais de recopie/restauration.
Aucune perte de donnée n'est à prévoir, et les données sont à jour.

L'incident a été considéré comme clos vers 13h30.
Le serveur a été déplacé en salle de production vers 18h.

Cordialement
Service Technique

Hors ligne