Annonce

#1 Maintenances Serveurs » [06/09/18] Incident tournevis » 2018-09-06 19:09:30

o2switch
Réponses : 0

Bonjour,

Nous travaillons sur un incident, plateforme tournevis.
Nous faisons au plus tôt pour rétablir les accès des personnes concernées.

Cordialement
Equipe o2switch

#2 Maintenances Serveurs » [29/08/18] Plateforme tisane » 2018-08-29 14:27:38

o2switch
Réponses : 0

Bonjour,

Plantage détecté par monitoring sur "tisane".
Une grappe disques ne répond plus. On change le matériel et on relance.
Durée ~10/15mns.

Pas d'incident à prévoir sur l'intégrité des données.

Equipe o2switch

#3 Maintenances Serveurs » [28/08/18] Interventions nuit » 2018-08-28 03:17:59

o2switch
Réponses : 0

Bonjour,

Interventions dans la nuit du 28 Aout. ~3-4h du matin.

* Plateforme gesier : Instabilité mémoire suite à upgrade kernel "soft". (mémoire)
Nécessite un reboot hard du kernel. ~15/20mns.

* Plateforme framboise : Problème sur nappe SAS. Vitesse dégradée.
Nécessite un changement de nappe à réaliser dans la nuit. + rebuild raid.
~10/15mns.

* Plateforme kilo : Erreurs 503 constatées par un client du support.
Le frontal bloque massivement des bots malveillants. Pendant ce blocage, des fragments de mémoire sont utilisés.
Erreur possible sur ces fragments, et la partition de loop relative.
Par principe de précaution, remplacement intégral de la ram + rajout capacitif dans la foulée.
~15/20mns.

L'équipe technique reste à disposition
o2switch

#4 Maintenances Serveurs » [15/08/18] Problème alimentation Cobra » 2018-08-15 22:43:28

o2switch
Réponses : 0

Bonjour,

L'équipe de nuit va procéder au changement de l'alimentation redondée d'un serveur de la plateforme cobra.
Raison : bruit fort et anormal du serveur. (condensateur)

Nous vérifions en effet chaque jour, dans nos process de fonctionnement, l'état "visuel" et "auditif" des divers serveurs.
Remplacement sur la plage 23h-minuit. 5mns de coupure environ.

Avec nos excuses pour la gène générée,
Cordialement
Equipe o2switch

#7 Maintenances Serveurs » [05/08/18] Matrix » 2018-08-05 11:12:26

o2switch
Réponses : 1

Bonjour,

Nous détectons un incident disque sur la plateforme "matrix".
Pas de perturbation visible des hébergés

[2381223.648710] blk_update_request: I/O error, dev sdh, sector 1953082943
[2381223.648944] sd 8:0:0:0: [sdh] FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[2381223.648946] sd 8:0:0:0: [sdh] CDB: Read(10) 28 00 74 69 ad bf 00 00 80 00
[2381223.648948] blk_update_request: I/O error, dev sdh, sector 1953082815
[2381223.649175] blk_update_request: I/O error, dev sdh, sector 79


Cependant, ceci nécessite une intervention pĥysique.
L'intervention sera réalisée en critère d'urgence/période creuse ce Dimanche 5 Aout 2018.

Perturbation possible ~ 5 minutes.

Cordialement
Equipe Technique

#8 Maintenances Serveurs » [05/08/18] Dolphin » 2018-08-05 11:07:45

o2switch
Réponses : 1

Bonjour,

Nous détectons une défaillance sur le système de stockage de la plateforme "dolphin".
Intervention réalisée, changement du stockage défectueux.

Perturbation d'opération : rien à prévoir.

Perturbations passées :
Panne détectée par deux reboots intempestifs 'kernel panic'.
Dimanche 5/08/18 8h30
Dimanche 5/08/18 12h02
de chacun 2/3mns.

Cordialement
Equipe o2switch

#9 Maintenances Serveurs » [29/05/2018] Evolution/fix matériel sur klever/nice » 2018-05-29 13:43:43

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser une opération matérielle et d'urgence sur deux grappes : nice et klever
L'opération sera réalisée le 29/05/2018 vers 15h15-30. Durée : 15mns environ.

Cordialement
Equipe o2switch

#10 Maintenances Générales » [20/05/2018] Incident boucle optique » 2018-05-20 18:34:05

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré une problématique liée à une rupture optique ce Dimanche 19h pour la région Auvergne-Rhône-Alpes.
La rupture est directement localisée chez Covage, l'opérateur d'infrastructures en voierie. (DSP chargée des fourreaux / boucles locales).

Plusieurs équipement réseaux, permettant la gestion de longueurs d'ondes (équipements infinera) ont rencontré des incidents en cascade.
Un agent d'astreinte de Covage est intervenu sur site, l'ensemble des liaisons ont été UP vers 19h20.

Nous avons de notre côté re-routé le trafic par un chemin secondaire passant par le Sud de la France, qui reste en surveillance.
L'interco directe Clermont-Fd <> Nord/Est/Ouest en sus du chemin secondaire sera rétablie en l'absence de nouvel incident d'ici 20h.

Le re-routage n'impacte pas les performances des hébergés.
Les serveurs physiques n'ont pas eu de coupure à notifier, l'intégrité des données, tout incident en rapport avec un compte d'hébergement précis n'a pas de rapport avec la présente note de maintenance.

Cordialement,
Equipe o2switch,

#11 Re : Maintenances Générales » [11/03/18] Incident connectivité » 2018-03-11 13:55:50

Bonjour,

Nous venons de compléter la mise en place de certains matériels sur l'infrastructure réseau.
En effet, nous avons profité de cette attaque et des malheureuses conséquences pour faire évoluer certains équipements en transparence.

Ces derniers vont permettre de vous proposer, sous peu, des fonctions avancées dans la partie "Experts du Web" du cPanel. Particulièrement pour le monde SEO et l'univers des CMS.
Dès que tout sera prêt, nous vous tiendrons bien entendu informés!

Equipe o2switch

#12 Re : Maintenances Générales » [11/03/18] Incident connectivité » 2018-03-11 10:54:08

Bonjour.

Nous vous informons que l'incident est solutionné.
Quelques perturbations peuvent exister, mais disparaissent actuellement.
Aussi, et si des problèmes individuelles existent, merci d'ouvrir une demande de support à support@o2switch.fr

Une attaque DDoS vise à saturer les liens d'un prestataire afin d'injecter du trafic malveillant, et perturbant la bonne continuité des services.

Les attaques DDoS persistent, et c'est une bonne chose. Nous allons les utiliser, avec certains transitaires, afin de remonter et faire constater l'origine juste un plan juridique. Par un concours de circonstances, le peer d'origine peut être repéré relativement facilement, ceci malgrès des IP spoofées. (usurpées)
Le tout dans l'intérêt de notre clientèle.

Concrètement, que c'est il passé ?
Les attaques DDoS en cours depuis Vendredi étaient bloquées par Arbor, une solution anti-DDoS reconnue sur le marché.
Ces attaques ont commencé Vendredi dans le milieu d'après midi et n'étaient alors pas visibles.

Arbor faisant son travail, nos techniciens modifiaient à chaque fois les règles afin de filtrer les attaques.
Sur ce principe, l'attaquant a directement ciblé les adresses IP qui servent à interconnecter o2switch à ses prestataires en bande passante. IP appartenant à ces prestataires.

Alors et malheureusement, impossible de traiter le DDoS de notre côté...
Les liens uplinks eux mêmes, à défaut d'êtres saturés, n'étaient plus accessibles du fait des transitaires.
La circonstance nous a rendu dépendant de tiers, d'où un délai constaté dans le rétablissement.

Certains transitaires ont ajusté les mécanismes de protection de leur propre côté, en faisant une nouvelle configuration évitant la gène.
Nous travaillons alors toujours étroitement avec eux afin de surveiller le service sur la durée.

Cordialement,
Equipe o2switch

#14 Re : Maintenances Générales » [11/03/18] Incident connectivité » 2018-03-11 06:31:38

Quel est l'incident en cours chez o2switch ?

Nous recevons des attaques massives, de type DDoS, depuis le Vendredi 09 et à destination de notre réseau.
Ces attaques ont été bloqué, avec succès, par anti-DDoS Arbor malgrès une masse, et amplitude très importante.

Dans la nuit du Samedi 10 au Dimanche 11, les attaques ont pris une ampleur conséquente.

Même si nous avons l'habitude de ce genre d'attaques, bloquées avec succès et habituellement sans impact, cela a eu pour effet de :
- Bloquer totalement l'un de nos transitaires, Zayo/Neo.
- Bloquer deux autres liens principaux de transit.

Concrètement, les mécanismes de protection chez nos transitaires ont "sauté" suite aux attaques.
- Nos routeurs n'arrivent plus à annoncer les routes nécessaires à l'écoulement de la bande passante. (vu que les transitaires ne répondent plus correctement)
- Par extension, de provoquer une perte de connectivité.

La problématique doit alors être résolue chez nos transitaires, qui travaillent activement au rétablissement des services. Dont et principalement Zayo/Neo Telecom.

Nous sommes alors directement dépendant des opérateurs, qualitatifs, auquels nous souscrivons de la bande passante.
Nous attendons rétablissement afin de ré-activer les routes, ainsi que l'ensemble des protections Anti-DDoS.

Nous n'avons pas eu d'ETA dans l'immédiat.

Cordialement,
Equipe o2switch

#15 Maintenances Générales » [11/03/18] Incident connectivité » 2018-03-11 05:27:45

o2switch
Réponses : 4

Bonjour

Nous traitons actuellement avec nos opérateurs un incident impactant l'interconnexion de nos hébergés.
Nous faisons au plus vite afin d'assurer un retour à la normale. Plus de détails à venir.

Équipe Technique

#16 Maintenances Serveurs » [21/02/18] Incident disque "matrix" » 2018-02-21 17:12:07

o2switch
Réponses : 0

Bonjour,

Nous constatons une faiblesse sur une grappe disques de "matrix".
De fait, en l'urgence, une opération de remplacement est en cours.
Durée estimative avec reconstruction du volume RAID : 15mns.

Cordialement
Equipe Technique

#17 Maintenances Serveurs » [20/02/2018] Mise à jour "kernel" (noyau) de certains serveurs » 2018-02-20 14:04:21

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser un upgrade kernel en critère d'urgence, localisé sur environ ~ 10 serveurs physiques destinés à l'offre unique.
Cet upgrade sera fait tout au long de la journée du 20 Février 2018.

L'upgrade nécessite un reboot physique du serveur impacté, la mise à jour ne peut être réalisée par les méthodes habituelles de patching, ou encore kernelcare que nous utilisons.

Le reboot d'un serveur prend, en moyenne de 5 à 10mns.
Aussi et avec nos excuses, vous pouvez rencontrer une brève perturbation sur les serveurs concernés.

Cordialement,
Equipe Technique o2switch

#18 Maintenances Serveurs » [02/02/2018] Défaillance électrique "tournevis" » 2018-02-02 07:46:15

o2switch
Réponses : 0

Bonjour,

Nous détectons une défaillance de l'alimentation électrique sur "tournevis".
Le serveur impacté fonctionne toujours à cause d'un matériel redondant. Néanmoins, un remplacement nécessitant un reboot va être nécessaire : le changement à chaud étant impossible sur le cas.

Nous réaliserons l'opération dans la journée, sur critère d'urgence et sur une heure jugée creuse dans le trafic du serveur.
Durée ~ 5mns.

Cordialement
Equipe o2switch

#19 Maintenances Serveurs » [02/02/2018] Défaillance matérielle "bash" » 2018-02-02 07:38:33

o2switch
Réponses : 0

Bonjour,

Suite à des erreurs mémoires remontées en bios (corrigées, modules ECC), nous avons changé un module de RAM sur cette plateforme.
L'opération a été réalisé en critère d'urgence suite à retour monitoring. Le tout a de nouveau été fonctionnel dans la foulée.

Cordialement
Agréable journée
Equipe o2switch

#20 Maintenances Serveurs » [21/11/2017] Perturbations sur "kewek" - "kilo" - "flexo" » 2017-11-21 19:22:46

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré, ce jour, des problématiques isolés sur trois serveurs physiques distincts (sur ~180 à ce jour)
Nos ingénieurs techniques sont alors intervenus toute la journée afin de comprendre l'origine, investiguer, et résoudre définitivement.

Concrètement.

L'éditeur de cPanel a mis à jour son interface, avec une alerte de sécurité très critique.
Nous avons naturellement réalisé la mise à jour dans les plus brefs délais et dans l'intérêt de nos hébergés. Avant publication des détails des failles découvertes. (publication = recherche d'usage possible).

La mise a jour a été lancé ce matin, vers 9h environ et testé préalablement, sans échec, sur une poigné de serveurs "devel".

Les serveurs impactés en production étaient : kewek, kilo, flexo.
- Seuls ces serveurs -

Nous utilisons l'API mise en place par l'éditeur cPanel pour gérer plusieurs aspects des hébergements.

- D'une part le WAF, avec de l'analyse comportementale et des actions pilotées par l'API.
Sans entrer dans les détails pour diverses raisons : nous analysons les logs, et modifions certains points en fonction des attaques live. Le tout dans le but d'avoir une protection efficace & intelligente pour nos hébergés.

- D'autre part, pour générer certains vhosts à la volée, particulièrement concernant SSL.

L'API a cessé de répondre de la même manière aux demandes. Ceci étant alors non documenté par l'éditeur.
De même, le comportement est dans une même branche de version cPanel.
Ce comportement est alors assez singulier, car il n'a concerné que trois serveurs sur l'ensemble de notre parc. Nous investiguons toujours l'origine.

Nous avons alors des mécanismes de fail-back disponibles, afin de modifier les méthodes de notre côté si l'API est en défaut.
Les mécanismes ont fonctionné, et le service a continué.

Néanmoins, l'erreur a provoqué des relances intempestives de certains services.
Et, les appels API qui passaient partiellement ont provoqué une charge anormale sur les échanges IO.
Cela a alors généré des perturbations imprévisibles dont nous nous excusons.

De même, le WAF en analyse comportementale n'a pas répondu correctement, et des filtrages manuels ont été positionné en l'attente. Certains domaines hébergés étant sous des attaques externes permanentes.

Actuellement, le service est revenu.

Nous avons réécrit l'ensemble de nos outils pour corriger définitivement le cas et prévenir tout incident du type. Mais, nous gardons une surveillance sur la situation.
De même, nous avons anticipé le cas, et nous nous sommes assurés qu'il NE PUISSE PAS être similaire sur des serveurs différents des seuls trois concernés.

Nous comprenons que cette situation, inhabituelle, étonnante, ait pu étonner et perturber nos hébergés habitués à un tout autre fonctionnement !

Avec nos excuses,

Merci de votre fidélité,
Equipe o2switch

#21 Maintenances Serveurs » [21/11/2017] [11h GMT+1] Retour incident "ronron" » 2017-11-21 11:48:53

o2switch
Réponses : 0

Bonjour,

Nous avons eu des retours de certains hébergés, concernant des problématiques de performances récurrentes sur "ronron".
Nous avons constaté, de notre côté, quelques cas mais ne sommes pas parvenus à reproduire avec exactitude l'origine du problème. Ni même d'en trouver un probant.

Ce jour, le 21/11/2017 vers 11h, il semble que "ronron" ait remonté des erreurs franches : coupures intempestives, IO.
Malgrès cela, le matériel semble être en ordre, et les self-tests ne présentent pas d'erreur.

Aussi, lorsque "ronron" a coupé à 11h nous avons pris la décision radicale de changer tout le matériel dans l'urgence. Afin de minimiser des impacts futurs et résoudre définitivement des cas remontés.

Ainsi, n'étant pas en mesure de trouver une justification probante, nous avons déplacé les données vers un serveur neuf.
Bien entendu, aucune perte, et le fonctionnement, les configurations restent similaires.

Par la même occasion nous avons aussi modifié le stockage NVMe associé à MySQL par une carte PCI-Express neuve.
Nous suspectons en effet des latences anormales sur ce matériel.

Le serveur est de nouveau en ligne vers ~11h30. Les services sont en relance et le tout devrait rapidement redevenir optimal.

Cordialement
Equipe o2switch.

#22 Maintenances Serveurs » [21/07/2017] Maintenance "disqueuse" » 2017-07-21 08:25:59

o2switch
Réponses : 0

Bonjour,

Nous devons effectuer une opération d'urgence sur "disqueuse".
L'opération sera lancée vers 9h45. Durée : +/- 15mns.

Descriptif :
- Pré-défaut à corriger sur le volume contenant MySQL.
- Prévenir une défaillance du volume de stockage local.

Il n'existe pas d'opération à faire de votre côté.

Merci de votre compréhension
Equipe o2switch

#23 Maintenances Serveurs » [21/05/2017] Remplacement sur volume SSD - ice.o2switch.net » 2017-05-21 11:12:46

o2switch
Réponses : 0

Bonjour,

Nous procédons ce jour, Dimanche 21/05/17, 12h05, au remplacement d'un volume SSD défaillant sur l'hôte ice.o2switch.net
Temps estimatif : 10mns. Puis retour à la normale des services.

Cordialement,
Equipe o2switch

#24 Maintenances Serveurs » [12/05/2017] Incident disque, hôte citron.o2switch.net » 2017-05-12 16:34:09

o2switch
Réponses : 0

Bonjour,

L'un de nos serveurs, pourtant pour hôte citron.o2switch.net a rencontré ce jour une défaillance matérielle.
Nous équipe est alors intervenue immédiatement pour rétablir la situation au plus tôt.
Cette situation est isolé sur l'hôte concerné (~70 comptes d'hébergement impactés), et n'impacte pas l'ensemble de nos serveurs.

Après analyse, un groupe de disques (en RAID) est hors service.
Il s'agit vraisemblablement d'une panne mécanique, potentiellement liée à une défaillance d'alimentation sur le serveur.

Nous avons donc procédé au remplacement complet du serveur.
Les disques intacts ont été positionnés, les défaillants remplacés.
Les données des disques défaillants sont en cours de recopie depuis un filer de sauvegardes déporté.

L'ensemble des services revient progressivement pour les quelques comptes concernés.
Le délai dépend alors des opérations de recopie, incompressibles par leur nature.

Cordialement
Equipe o2switch

#25 Maintenances Générales » [11/03/2017] Travaux en voierie / Autoroute A71 » 2017-05-03 13:46:29

o2switch
Réponses : 0

Bonjour,

Nous souhaitons vous informer de travaux programmés en voirie le 11 Mai 2017 à partir de 23h45.
En raison de la destruction d'un pont sur l'autoroute A71, l'un de nos chemins physiques sera perturbé.
Nous sommes redondés en voierie pour permettre la continuité des services entres nos différents liens réseaux.

Néanmoins, et pendant les premières minutes de l'intervention, il sera possible de constater des perturbations d'accès.
Il faudra alors patienter quelques minutes le temps que les sessions BGP (transit internet) redirigent intégralement vers le lien qui restera intact.

Nos techniciens seront mobilisés pour veiller à la bonne continuité des services.
Cette opération est alors imposée par le gestionnaire du réseau autoroutier concerné.

Ci-dessous, le graph des points physiques, ainsi que la zone de rupture.
zonetravaux.png

Nous restons à votre disposition,
Equipe Technique o2switch