Pages : 1
Bonjour,
Nous avons rencontré ce matin, vers 9h45, un incident général sur les serveurs DNS ns1/ns2.
Ces serveurs DNS sont des clusters, des regroupements de plusieurs serveurs dont les requêtes sont réparties entres de nombreuses machines physiques. C'est alors ce qui permet à la fois la redondance, et la résolution rapide des requêtes, dont et parfois sur plusieurs zones géographiques.
Vers 9h40, un problème de zone a été constaté sur l'un des serveurs du cluster.
Peu après, et jusqu'à 10h, malgrès les protections en place pour éviter cette situation, le problème s'est répliqué aux 3/4 des machines physiques des clusters.
Nous avons immédiatement lancé les opérations de correction. Néanmoins et compte tenu de la complexité de cette infrastructure, et du nombre de serveurs physiques, des tâches lourdes sont nécessaires pour corriger le cas.
Certaines zones (France, Europe du Sud) ont commencé à de nouveau répondre vers 10h15.
D'autres, vers 10h30, et l'intégralité répond de nouveau correctement depuis ~10h45.
Le service étant de nouveau conforme, nous analysons le cas, et prendrons des mesures pour éviter qu'un tel incident soit possible. Autant sur la couche réseau, que la couche applicative.
Nous nous excusons vivement de la gène générée, et nous avons fait au plus vite pour traiter la situation de manière curative.
Service Technique
Hors ligne
Pages : 1