Bonjour,
Nous avons constaté à plusieurs reprises des incidents sur un serveur physique "cow".
Depuis ~ 15jrs, le serveur s'arrête et l'iLO interne, qui n'est pas défectueux (serveur HP) bloque en erreur fatal : écran rouge, mais aucune erreur cohérente ou permettant d'identifier l'origine du cas.
De fait, des plantages "bruts" matériels ont été constatés à 5 reprises (à intervalle tous les 2/3jrs).
A chaque fois, des opérations curatives, à l'aveugle, sont réalisés :
- Changement des CPU
- Changement de la ram
- Changement du backplane SAS
- Changement du contrôleur raid.
Ce jour, ~10h30, l'incident s'est à nouveau produit.
Le cas ne pouvant pas persister et n'étant pas conforme avec nos exigences de service, nous avons remplacé matériellement l'intégralité du serveur physique. Dont les disques système, recopiés.
Le service est de nouveau opérationnel vers ~14h.
Nous nous excusons pour la gène générée.
Cordialement
Equipe o2switch
Hors ligne