Annonce

#1 2017-11-21 19:22:46

o2switch
o2switch
Lieu : Clermont-Ferrand
Inscription : 2014-06-17
Site Web

[21/11/2017] Perturbations sur "kewek" - "kilo" - "flexo"

Bonjour,

Nous avons rencontré, ce jour, des problématiques isolés sur trois serveurs physiques distincts (sur ~180 à ce jour)
Nos ingénieurs techniques sont alors intervenus toute la journée afin de comprendre l'origine, investiguer, et résoudre définitivement.

Concrètement.

L'éditeur de cPanel a mis à jour son interface, avec une alerte de sécurité très critique.
Nous avons naturellement réalisé la mise à jour dans les plus brefs délais et dans l'intérêt de nos hébergés. Avant publication des détails des failles découvertes. (publication = recherche d'usage possible).

La mise a jour a été lancé ce matin, vers 9h environ et testé préalablement, sans échec, sur une poigné de serveurs "devel".

Les serveurs impactés en production étaient : kewek, kilo, flexo.
- Seuls ces serveurs -

Nous utilisons l'API mise en place par l'éditeur cPanel pour gérer plusieurs aspects des hébergements.

- D'une part le WAF, avec de l'analyse comportementale et des actions pilotées par l'API.
Sans entrer dans les détails pour diverses raisons : nous analysons les logs, et modifions certains points en fonction des attaques live. Le tout dans le but d'avoir une protection efficace & intelligente pour nos hébergés.

- D'autre part, pour générer certains vhosts à la volée, particulièrement concernant SSL.

L'API a cessé de répondre de la même manière aux demandes. Ceci étant alors non documenté par l'éditeur.
De même, le comportement est dans une même branche de version cPanel.
Ce comportement est alors assez singulier, car il n'a concerné que trois serveurs sur l'ensemble de notre parc. Nous investiguons toujours l'origine.

Nous avons alors des mécanismes de fail-back disponibles, afin de modifier les méthodes de notre côté si l'API est en défaut.
Les mécanismes ont fonctionné, et le service a continué.

Néanmoins, l'erreur a provoqué des relances intempestives de certains services.
Et, les appels API qui passaient partiellement ont provoqué une charge anormale sur les échanges IO.
Cela a alors généré des perturbations imprévisibles dont nous nous excusons.

De même, le WAF en analyse comportementale n'a pas répondu correctement, et des filtrages manuels ont été positionné en l'attente. Certains domaines hébergés étant sous des attaques externes permanentes.

Actuellement, le service est revenu.

Nous avons réécrit l'ensemble de nos outils pour corriger définitivement le cas et prévenir tout incident du type. Mais, nous gardons une surveillance sur la situation.
De même, nous avons anticipé le cas, et nous nous sommes assurés qu'il NE PUISSE PAS être similaire sur des serveurs différents des seuls trois concernés.

Nous comprenons que cette situation, inhabituelle, étonnante, ait pu étonner et perturber nos hébergés habitués à un tout autre fonctionnement !

Avec nos excuses,

Merci de votre fidélité,
Equipe o2switch

Hors ligne