Annonce

#1 2023-12-14 13:16:04

o2switch
o2switch
Lieu : Clermont-Ferrand
Inscription : 2014-06-17
Site Web

[14/12/2023] Incident réseau bloquant

Bonjour,

Nous rencontrons un incident réseau bloquant sur certains serveurs. (problème kernel/matériel)
Nous travaillons à la résolution progressive. Nous updaterons ce message avec le détail une fois situation rétablie.

Cordialement

Hors ligne

#2 2023-12-14 14:06:59

o2switch
o2switch
Lieu : Clermont-Ferrand
Inscription : 2014-06-17
Site Web

Re : [14/12/2023] Incident réseau bloquant

Bonjour,

Pour suite à l'incident, ayant commencé à s'être déclaré ce matin vers 10h.
Sur l'intégralité de nos serveurs nous utilisons Kernelcare : https://cloudlinux.com/kernelcare-hosting/

Il s'agit d'un système de patchs pour kernel, afin d'éviter de devoir redémarrer un serveur à chaque mise à jour du noyau Linux.
Kernelcare est utilisé avec succès par de nombreux hébergeurs, et chez nous depuis +8ans.

Kernelcare réalise applique automatiquement ses patchs, qui sont censés êtres testés et ne poser aucun problème.
De même que nous testons aussi, au préalable, sur un lot de serveurs (où il n'y a pas eu d'incident..)
Ainsi, il n'y a pas de périodicité spécifique ni d'heure d'application : dès qu'un patch est disponible, il est appliqué.

Ce matin vers 10h tous les serveurs ont réceptionné un patch appliqué dans la foulée.
Problème : sur ~ 50 machines physiques, le patch a provoqué une incompatibilité entre le matériel (carte réseau indépendante) et le kernel. Ayant pour résultat de bloquer complètement le réseau du serveur physique concerné.

Naturellement, pour annuler le patch, nous devons avoir accès au réseau.. Réseau qui ne fonctionne plus.
Nous devons donc nous connecter physiquement sur tous les serveurs, voir ce qu'il est possible de faire,
et le cas échéant remplacer physiquement le carte réseau provoquant l'incompatibilité sur le serveur concerné.

Ces opérations sont relativement complèxes, doivent êtres réalisées serveur par serveur, et nous faisons au plus vite.
Nous sommes désolé pour le manque d'information le temps d'avoir trouvé l'origine de l'incident.

Les serveurs concernés vont revenir progressivement en ligne sur le réseau.

Cordialement
Service Technique

Hors ligne