Annonce

#1 Maintenances Serveurs » [15/12/18] Erreurs "framboise" et mode IO/lecture seule aléatoire. » 2018-12-15 12:14:40

o2switch
Réponses : 0

Bonjour,

Nous avons des remontés de clients sur des erreurs aléatoires, localisées sur Framboise.
Nous suspectons après analyse soit le rail d'alimentation des disques, soit les nappes du controleur.

Les deux viennent d'êtres changés.
Le tout est en banc de test et devrait être stabilité.
Si tout est bon, le serveur impacté sera re-mis en salle de production Dimanche 16 Décembre au matin.
A défaut, nous changerons les disques. Pas d'impact pour les données.

Cordialement
Equipe technique

#2 Re : Maintenances Serveurs » [09/12/2018] Incident Serflex » 2018-12-09 14:01:56

Serveur re-positionné en environnement de production.
R.A.S, le problème venait venait bien du riser.

Nous nous excusons de la gène générée.
Les cas matériels de ce type sont relativement rares, et même, normalement inexistants. (...)
Nous avons vérifié l'ensemble, il ne s'agissait pas d'une erreur humaine de branchement.

Nous signalerons au constructeur, si besoin, la défaillance.

Crdt,
Equipe Technique

#3 Re : Maintenances Serveurs » [09/12/2018] Incident Serflex » 2018-12-09 13:10:07

L'incident est clôturé.

Nous avons remplacé le serveur physique concerné et localisé.
Le problème venait d'un riser, https://en.wikipedia.org/wiki/Riser_card pci-express.

Un condensateur a brulé, avec une partie du PCB.
Lors de l'incident, une partie des SSD du système ont été touché. (problème électrique sur ces derniers)

Nous avons réinstallé le système sur des disques neufs,
Aucune perte de donnée n'est à prévoir.
Nous terminons et surveillons.

#4 Maintenances Serveurs » [09/12/2018] Incident Serflex » 2018-12-09 12:09:25

o2switch
Réponses : 2

Bonjour,

Nous rencontrons un incident sur certains serveurs de "serflex".
Nous pensons l'incident lié au réseau et au matériel attenant.
Actuellement ~50 clients sont concernés par l'incident. Nous travaillons bien dessus depuis l'alerte monitoring liée.

Nous remplaçons le matériel.

Cordialement
Equipe Technique

#5 Maintenances Serveurs » [08/12/18] Incidents stockage/disques détectés sur "ronron" » 2018-12-08 08:27:13

o2switch
Réponses : 0

Bonjour,

Nous détectons cette nuit des incidents/erreurs multiples sur la partie stockage d'un des serveurs physiques.
Nous allons, pour ce dernier :
- Retirer tout média de stockage "douteux", remplacer physiquement
- Profiter de l'opération pour rajouter de la ram.
- Remplacer préventivement les contrôleurs et alimentations.

Vous n'avez aucun impact à prévoir, naturellement sur vos données.
L'opération de remplacement sera lancée vers 8h au matin du 08/12/2018
Durée estimative : ~10/15mns.

Merci,
Equipe technique

#6 Maintenances Serveurs » [06/09/18] Incident tournevis » 2018-09-06 19:09:30

o2switch
Réponses : 0

Bonjour,

Nous travaillons sur un incident, plateforme tournevis.
Nous faisons au plus tôt pour rétablir les accès des personnes concernées.

Cordialement
Equipe o2switch

#7 Maintenances Serveurs » [29/08/18] Plateforme tisane » 2018-08-29 14:27:38

o2switch
Réponses : 0

Bonjour,

Plantage détecté par monitoring sur "tisane".
Une grappe disques ne répond plus. On change le matériel et on relance.
Durée ~10/15mns.

Pas d'incident à prévoir sur l'intégrité des données.

Equipe o2switch

#8 Maintenances Serveurs » [28/08/18] Interventions nuit » 2018-08-28 03:17:59

o2switch
Réponses : 0

Bonjour,

Interventions dans la nuit du 28 Aout. ~3-4h du matin.

* Plateforme gesier : Instabilité mémoire suite à upgrade kernel "soft". (mémoire)
Nécessite un reboot hard du kernel. ~15/20mns.

* Plateforme framboise : Problème sur nappe SAS. Vitesse dégradée.
Nécessite un changement de nappe à réaliser dans la nuit. + rebuild raid.
~10/15mns.

* Plateforme kilo : Erreurs 503 constatées par un client du support.
Le frontal bloque massivement des bots malveillants. Pendant ce blocage, des fragments de mémoire sont utilisés.
Erreur possible sur ces fragments, et la partition de loop relative.
Par principe de précaution, remplacement intégral de la ram + rajout capacitif dans la foulée.
~15/20mns.

L'équipe technique reste à disposition
o2switch

#9 Maintenances Serveurs » [15/08/18] Problème alimentation Cobra » 2018-08-15 22:43:28

o2switch
Réponses : 0

Bonjour,

L'équipe de nuit va procéder au changement de l'alimentation redondée d'un serveur de la plateforme cobra.
Raison : bruit fort et anormal du serveur. (condensateur)

Nous vérifions en effet chaque jour, dans nos process de fonctionnement, l'état "visuel" et "auditif" des divers serveurs.
Remplacement sur la plage 23h-minuit. 5mns de coupure environ.

Avec nos excuses pour la gène générée,
Cordialement
Equipe o2switch

#12 Maintenances Serveurs » [05/08/18] Matrix » 2018-08-05 11:12:26

o2switch
Réponses : 1

Bonjour,

Nous détectons un incident disque sur la plateforme "matrix".
Pas de perturbation visible des hébergés

[2381223.648710] blk_update_request: I/O error, dev sdh, sector 1953082943
[2381223.648944] sd 8:0:0:0: [sdh] FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[2381223.648946] sd 8:0:0:0: [sdh] CDB: Read(10) 28 00 74 69 ad bf 00 00 80 00
[2381223.648948] blk_update_request: I/O error, dev sdh, sector 1953082815
[2381223.649175] blk_update_request: I/O error, dev sdh, sector 79


Cependant, ceci nécessite une intervention pĥysique.
L'intervention sera réalisée en critère d'urgence/période creuse ce Dimanche 5 Aout 2018.

Perturbation possible ~ 5 minutes.

Cordialement
Equipe Technique

#13 Maintenances Serveurs » [05/08/18] Dolphin » 2018-08-05 11:07:45

o2switch
Réponses : 1

Bonjour,

Nous détectons une défaillance sur le système de stockage de la plateforme "dolphin".
Intervention réalisée, changement du stockage défectueux.

Perturbation d'opération : rien à prévoir.

Perturbations passées :
Panne détectée par deux reboots intempestifs 'kernel panic'.
Dimanche 5/08/18 8h30
Dimanche 5/08/18 12h02
de chacun 2/3mns.

Cordialement
Equipe o2switch

#14 Maintenances Serveurs » [29/05/2018] Evolution/fix matériel sur klever/nice » 2018-05-29 13:43:43

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser une opération matérielle et d'urgence sur deux grappes : nice et klever
L'opération sera réalisée le 29/05/2018 vers 15h15-30. Durée : 15mns environ.

Cordialement
Equipe o2switch

#15 Maintenances Générales » [20/05/2018] Incident boucle optique » 2018-05-20 18:34:05

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré une problématique liée à une rupture optique ce Dimanche 19h pour la région Auvergne-Rhône-Alpes.
La rupture est directement localisée chez Covage, l'opérateur d'infrastructures en voierie. (DSP chargée des fourreaux / boucles locales).

Plusieurs équipement réseaux, permettant la gestion de longueurs d'ondes (équipements infinera) ont rencontré des incidents en cascade.
Un agent d'astreinte de Covage est intervenu sur site, l'ensemble des liaisons ont été UP vers 19h20.

Nous avons de notre côté re-routé le trafic par un chemin secondaire passant par le Sud de la France, qui reste en surveillance.
L'interco directe Clermont-Fd <> Nord/Est/Ouest en sus du chemin secondaire sera rétablie en l'absence de nouvel incident d'ici 20h.

Le re-routage n'impacte pas les performances des hébergés.
Les serveurs physiques n'ont pas eu de coupure à notifier, l'intégrité des données, tout incident en rapport avec un compte d'hébergement précis n'a pas de rapport avec la présente note de maintenance.

Cordialement,
Equipe o2switch,

#16 Re : Maintenances Générales » [11/03/18] Incident connectivité » 2018-03-11 13:55:50

Bonjour,

Nous venons de compléter la mise en place de certains matériels sur l'infrastructure réseau.
En effet, nous avons profité de cette attaque et des malheureuses conséquences pour faire évoluer certains équipements en transparence.

Ces derniers vont permettre de vous proposer, sous peu, des fonctions avancées dans la partie "Experts du Web" du cPanel. Particulièrement pour le monde SEO et l'univers des CMS.
Dès que tout sera prêt, nous vous tiendrons bien entendu informés!

Equipe o2switch

#17 Re : Maintenances Générales » [11/03/18] Incident connectivité » 2018-03-11 10:54:08

Bonjour.

Nous vous informons que l'incident est solutionné.
Quelques perturbations peuvent exister, mais disparaissent actuellement.
Aussi, et si des problèmes individuelles existent, merci d'ouvrir une demande de support à support@o2switch.fr

Une attaque DDoS vise à saturer les liens d'un prestataire afin d'injecter du trafic malveillant, et perturbant la bonne continuité des services.

Les attaques DDoS persistent, et c'est une bonne chose. Nous allons les utiliser, avec certains transitaires, afin de remonter et faire constater l'origine juste un plan juridique. Par un concours de circonstances, le peer d'origine peut être repéré relativement facilement, ceci malgrès des IP spoofées. (usurpées)
Le tout dans l'intérêt de notre clientèle.

Concrètement, que c'est il passé ?
Les attaques DDoS en cours depuis Vendredi étaient bloquées par Arbor, une solution anti-DDoS reconnue sur le marché.
Ces attaques ont commencé Vendredi dans le milieu d'après midi et n'étaient alors pas visibles.

Arbor faisant son travail, nos techniciens modifiaient à chaque fois les règles afin de filtrer les attaques.
Sur ce principe, l'attaquant a directement ciblé les adresses IP qui servent à interconnecter o2switch à ses prestataires en bande passante. IP appartenant à ces prestataires.

Alors et malheureusement, impossible de traiter le DDoS de notre côté...
Les liens uplinks eux mêmes, à défaut d'êtres saturés, n'étaient plus accessibles du fait des transitaires.
La circonstance nous a rendu dépendant de tiers, d'où un délai constaté dans le rétablissement.

Certains transitaires ont ajusté les mécanismes de protection de leur propre côté, en faisant une nouvelle configuration évitant la gène.
Nous travaillons alors toujours étroitement avec eux afin de surveiller le service sur la durée.

Cordialement,
Equipe o2switch

#19 Re : Maintenances Générales » [11/03/18] Incident connectivité » 2018-03-11 06:31:38

Quel est l'incident en cours chez o2switch ?

Nous recevons des attaques massives, de type DDoS, depuis le Vendredi 09 et à destination de notre réseau.
Ces attaques ont été bloqué, avec succès, par anti-DDoS Arbor malgrès une masse, et amplitude très importante.

Dans la nuit du Samedi 10 au Dimanche 11, les attaques ont pris une ampleur conséquente.

Même si nous avons l'habitude de ce genre d'attaques, bloquées avec succès et habituellement sans impact, cela a eu pour effet de :
- Bloquer totalement l'un de nos transitaires, Zayo/Neo.
- Bloquer deux autres liens principaux de transit.

Concrètement, les mécanismes de protection chez nos transitaires ont "sauté" suite aux attaques.
- Nos routeurs n'arrivent plus à annoncer les routes nécessaires à l'écoulement de la bande passante. (vu que les transitaires ne répondent plus correctement)
- Par extension, de provoquer une perte de connectivité.

La problématique doit alors être résolue chez nos transitaires, qui travaillent activement au rétablissement des services. Dont et principalement Zayo/Neo Telecom.

Nous sommes alors directement dépendant des opérateurs, qualitatifs, auquels nous souscrivons de la bande passante.
Nous attendons rétablissement afin de ré-activer les routes, ainsi que l'ensemble des protections Anti-DDoS.

Nous n'avons pas eu d'ETA dans l'immédiat.

Cordialement,
Equipe o2switch

#20 Maintenances Générales » [11/03/18] Incident connectivité » 2018-03-11 05:27:45

o2switch
Réponses : 4

Bonjour

Nous traitons actuellement avec nos opérateurs un incident impactant l'interconnexion de nos hébergés.
Nous faisons au plus vite afin d'assurer un retour à la normale. Plus de détails à venir.

Équipe Technique

#21 Maintenances Serveurs » [21/02/18] Incident disque "matrix" » 2018-02-21 17:12:07

o2switch
Réponses : 0

Bonjour,

Nous constatons une faiblesse sur une grappe disques de "matrix".
De fait, en l'urgence, une opération de remplacement est en cours.
Durée estimative avec reconstruction du volume RAID : 15mns.

Cordialement
Equipe Technique

#22 Maintenances Serveurs » [20/02/2018] Mise à jour "kernel" (noyau) de certains serveurs » 2018-02-20 14:04:21

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser un upgrade kernel en critère d'urgence, localisé sur environ ~ 10 serveurs physiques destinés à l'offre unique.
Cet upgrade sera fait tout au long de la journée du 20 Février 2018.

L'upgrade nécessite un reboot physique du serveur impacté, la mise à jour ne peut être réalisée par les méthodes habituelles de patching, ou encore kernelcare que nous utilisons.

Le reboot d'un serveur prend, en moyenne de 5 à 10mns.
Aussi et avec nos excuses, vous pouvez rencontrer une brève perturbation sur les serveurs concernés.

Cordialement,
Equipe Technique o2switch

#23 Maintenances Serveurs » [02/02/2018] Défaillance électrique "tournevis" » 2018-02-02 07:46:15

o2switch
Réponses : 0

Bonjour,

Nous détectons une défaillance de l'alimentation électrique sur "tournevis".
Le serveur impacté fonctionne toujours à cause d'un matériel redondant. Néanmoins, un remplacement nécessitant un reboot va être nécessaire : le changement à chaud étant impossible sur le cas.

Nous réaliserons l'opération dans la journée, sur critère d'urgence et sur une heure jugée creuse dans le trafic du serveur.
Durée ~ 5mns.

Cordialement
Equipe o2switch

#24 Maintenances Serveurs » [02/02/2018] Défaillance matérielle "bash" » 2018-02-02 07:38:33

o2switch
Réponses : 0

Bonjour,

Suite à des erreurs mémoires remontées en bios (corrigées, modules ECC), nous avons changé un module de RAM sur cette plateforme.
L'opération a été réalisé en critère d'urgence suite à retour monitoring. Le tout a de nouveau été fonctionnel dans la foulée.

Cordialement
Agréable journée
Equipe o2switch

#25 Maintenances Serveurs » [21/11/2017] Perturbations sur "kewek" - "kilo" - "flexo" » 2017-11-21 19:22:46

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré, ce jour, des problématiques isolés sur trois serveurs physiques distincts (sur ~180 à ce jour)
Nos ingénieurs techniques sont alors intervenus toute la journée afin de comprendre l'origine, investiguer, et résoudre définitivement.

Concrètement.

L'éditeur de cPanel a mis à jour son interface, avec une alerte de sécurité très critique.
Nous avons naturellement réalisé la mise à jour dans les plus brefs délais et dans l'intérêt de nos hébergés. Avant publication des détails des failles découvertes. (publication = recherche d'usage possible).

La mise a jour a été lancé ce matin, vers 9h environ et testé préalablement, sans échec, sur une poigné de serveurs "devel".

Les serveurs impactés en production étaient : kewek, kilo, flexo.
- Seuls ces serveurs -

Nous utilisons l'API mise en place par l'éditeur cPanel pour gérer plusieurs aspects des hébergements.

- D'une part le WAF, avec de l'analyse comportementale et des actions pilotées par l'API.
Sans entrer dans les détails pour diverses raisons : nous analysons les logs, et modifions certains points en fonction des attaques live. Le tout dans le but d'avoir une protection efficace & intelligente pour nos hébergés.

- D'autre part, pour générer certains vhosts à la volée, particulièrement concernant SSL.

L'API a cessé de répondre de la même manière aux demandes. Ceci étant alors non documenté par l'éditeur.
De même, le comportement est dans une même branche de version cPanel.
Ce comportement est alors assez singulier, car il n'a concerné que trois serveurs sur l'ensemble de notre parc. Nous investiguons toujours l'origine.

Nous avons alors des mécanismes de fail-back disponibles, afin de modifier les méthodes de notre côté si l'API est en défaut.
Les mécanismes ont fonctionné, et le service a continué.

Néanmoins, l'erreur a provoqué des relances intempestives de certains services.
Et, les appels API qui passaient partiellement ont provoqué une charge anormale sur les échanges IO.
Cela a alors généré des perturbations imprévisibles dont nous nous excusons.

De même, le WAF en analyse comportementale n'a pas répondu correctement, et des filtrages manuels ont été positionné en l'attente. Certains domaines hébergés étant sous des attaques externes permanentes.

Actuellement, le service est revenu.

Nous avons réécrit l'ensemble de nos outils pour corriger définitivement le cas et prévenir tout incident du type. Mais, nous gardons une surveillance sur la situation.
De même, nous avons anticipé le cas, et nous nous sommes assurés qu'il NE PUISSE PAS être similaire sur des serveurs différents des seuls trois concernés.

Nous comprenons que cette situation, inhabituelle, étonnante, ait pu étonner et perturber nos hébergés habitués à un tout autre fonctionnement !

Avec nos excuses,

Merci de votre fidélité,
Equipe o2switch