Pages : 1
Bonjour,
Un serveur physique de "citrus" a rencontré des perturbations cette nuit ~1h00.
Nous suspectons une erreur matérielle.
- Le serveur est changé physiquement
- Les volumes systèmes sont clonés sur une grappe RAID neuve, sur des SSD neufs.
Le serveur reste en banc de tests pour la nuit.
L'ensemble des services est à nouveau fonctionnel.
Durée d'impact : 30mns à 60mns.
Le serveur concerné sera re-racké en salle le 02/06/21 en l'absence de nouvel incident.
Merci de votre fidélité et compréhension.
Service Technique,
Hors ligne
Bonjour,
Le problème s'est de nouveau manifesté ce jour, ~9h, 04/06/21 de manière différente :
- Ecran "rouge" au boot Linux, erreur mémoire kernel sans raison apparente (la machine étant 100% neuve en dehors de certains disques SSD)
- Erreur de chargement grub aléatoire.
- Disparition aléatoire des disques système..
De fait nous avons été contraint de lancer en urgence des opérations lourdes afin de corriger définitivement le problème :
- Mise en place d'un système Linux à neuf.
- Récupération, restauration de toutes les configurations à partir d'un backup.
- Reconstruction des raids secondaires.
Le délai de ses opérations dépendant alors directement des délais de recopie/restauration.
Aucune perte de donnée n'est à prévoir, et les données sont à jour.
L'incident a été considéré comme clos vers 13h30.
Le serveur a été déplacé en salle de production vers 18h.
Cordialement
Service Technique
Hors ligne
Pages : 1