Annonce

#1 Maintenances Serveurs » [15/03/19] Toaster » 2019-03-15 20:42:46

o2switch
Réponses : 0

Bonjour,

Nous recevons une remontée monitoring pour "toaster".
Un volume du système rencontre une difficulté. Un technicien est sur l'incident.
Recopie en cours d'un volume raid (hotswap n'ayant pas fonctionné comme souhaité).

Prévisionnel ~20mns.
Pas de perte de données, pas d'incident consécutif à prévoir. Le tout va repartir dès recopie terminée,

Cordialement
Equipe o2switch

#2 Re : Maintenances Serveurs » [06/02/2019] Incident "rognon" » 2019-02-06 11:30:55

Lors du redémarrage nocturne, le dernier kernel (noyau linux) a été chargé par le système. (comportement normal)
Il semble qu'un bug existe sur ce kernel officiel, dans la gestion des processus. L'incident disque peut être lié.

Nous avons rechargé un ancien kernel en rajoutant des patchs de sécurité et investiguons.
Si quelques ralentissements persistent, cela va disparaitre seul.

La situation générale doit être rétablie.

Cordialement
Equipe Technique

#3 Maintenances Serveurs » [06/02/2019] Incident "rognon" » 2019-02-06 09:37:31

o2switch
Réponses : 1

Bonjour,

Nous avons constater un incident sur l'hôte "rognon" le 6 Février, 1h du matin.
Le serveur a subit un incident électrique, et perdu une partie des disques qui constituent son RAID.

Le technicien d'astreinte a alors changé le matériel impacté, et relancé le serveur.
Tout était, visuellement bon. (intégrité, uuid des disques, correspondance d'espaces disques et dates).
A la relance, nous avons été alerté par des demandes de support qu'un problème existait sur les données de certains hébergés : des informations anciennes étaient lues.

Après analyse, une partie de la nuit, nous avons constaté au niveau du chip RAID un melange des identifiants physiques de disques.
Un des disques de backups locaux, avant remontée sur les serveurs isolés d'archivages, était lu à la place de la production.

Nous avons donc reconstruit complètement le RAID impacté. La carte RAID a été changé dans la foulée.
L'ensemble des données doit être visible depuis ce matin 9h15 environ pour les hébergés impactés.

Nous faisons une remonté au constructeur du chip RAID, afin de voir avec lui s'il s'agit d'un bug sur les drivers, ou dans le chip lui même.
Auquel cas, un upgrade de son bios sera réalisé.

Bon à savoir :

- Les données bénéficient de recopies multiples,
- Si un incident existe sur les disques locaux, non réparable, nous disposons d'archivages journaliers sur des serveurs distants.

Quoi qu'il en soit et dans un tel incident, l'intégrité des données hébergées est assuré.
Malgrès le stress que peut constituer un tel cas, vous n'avez donc pas d'inquiétude à avoir.
Si cependant vous constatez la moindre erreur, merci d'informer le support à support@o2switch.fr de manière précise.

Cordialement
Equipe Technique

#5 Maintenances Serveurs » Passage à MariaDB 10.3 / cPanel 78 » 2019-02-03 22:49:56

o2switch
Réponses : 0

Bonjour,

Nous informons nos hébergés que nous mettons progressivement à jour MariaDB (bases MySQL) vers la version 10.3.
Cette mise à jour est destinée à apporter des performances supérieures au moteur SQL.
Afin de basculer sous MariaDB 10.3, nous mettons, dans la foulée, à jour les serveurs sous la branche 78 de cPanel. Cette dernière permettant le support de cette nouvelle version. (gestion des bases depuis votre interface)

La mise à jour de MariaDB sera déployée par groupes de serveurs, à partir de 22h et dans la nuit.
Cette mise à jour doit être transparente pour les hébergés à l'exception d'une micro-coupure (relance) du moteur SQL pendant quelques minutes. Dont nous nous excusons.

L'opération de mise à jour est nécessaire à maintenir, chaque jour, une excellence de services afin d'accompagner nos hébergés.
Si vous rencontrez la moindre gène, nos experts auront une solution à support@o2switch.fr

Merci!
Equipe Technique o2switch

#6 Maintenances Serveurs » [03/02/2019] Maintenance planifiée "Flexo" » 2019-02-01 19:27:12

o2switch
Réponses : 1

Bonjour,

Nous interviendrons le Dimanche 03 Février 2019 sur l'hôte "flexo".
Nous devons réaliser une opération préventive, durée approximative : 10 minutes.

Cordialement
Equipe Technique

#7 Maintenances Serveurs » [15/12/18] Erreurs "framboise" et mode IO/lecture seule aléatoire. » 2018-12-15 12:14:40

o2switch
Réponses : 0

Bonjour,

Nous avons des remontés de clients sur des erreurs aléatoires, localisées sur Framboise.
Nous suspectons après analyse soit le rail d'alimentation des disques, soit les nappes du controleur.

Les deux viennent d'êtres changés.
Le tout est en banc de test et devrait être stabilité.
Si tout est bon, le serveur impacté sera re-mis en salle de production Dimanche 16 Décembre au matin.
A défaut, nous changerons les disques. Pas d'impact pour les données.

Cordialement
Equipe technique

#8 Re : Maintenances Serveurs » [09/12/2018] Incident Serflex » 2018-12-09 14:01:56

Serveur re-positionné en environnement de production.
R.A.S, le problème venait venait bien du riser.

Nous nous excusons de la gène générée.
Les cas matériels de ce type sont relativement rares, et même, normalement inexistants. (...)
Nous avons vérifié l'ensemble, il ne s'agissait pas d'une erreur humaine de branchement.

Nous signalerons au constructeur, si besoin, la défaillance.

Crdt,
Equipe Technique

#9 Re : Maintenances Serveurs » [09/12/2018] Incident Serflex » 2018-12-09 13:10:07

L'incident est clôturé.

Nous avons remplacé le serveur physique concerné et localisé.
Le problème venait d'un riser, https://en.wikipedia.org/wiki/Riser_card pci-express.

Un condensateur a brulé, avec une partie du PCB.
Lors de l'incident, une partie des SSD du système ont été touché. (problème électrique sur ces derniers)

Nous avons réinstallé le système sur des disques neufs,
Aucune perte de donnée n'est à prévoir.
Nous terminons et surveillons.

#10 Maintenances Serveurs » [09/12/2018] Incident Serflex » 2018-12-09 12:09:25

o2switch
Réponses : 2

Bonjour,

Nous rencontrons un incident sur certains serveurs de "serflex".
Nous pensons l'incident lié au réseau et au matériel attenant.
Actuellement ~50 clients sont concernés par l'incident. Nous travaillons bien dessus depuis l'alerte monitoring liée.

Nous remplaçons le matériel.

Cordialement
Equipe Technique

#11 Maintenances Serveurs » [08/12/18] Incidents stockage/disques détectés sur "ronron" » 2018-12-08 08:27:13

o2switch
Réponses : 0

Bonjour,

Nous détectons cette nuit des incidents/erreurs multiples sur la partie stockage d'un des serveurs physiques.
Nous allons, pour ce dernier :
- Retirer tout média de stockage "douteux", remplacer physiquement
- Profiter de l'opération pour rajouter de la ram.
- Remplacer préventivement les contrôleurs et alimentations.

Vous n'avez aucun impact à prévoir, naturellement sur vos données.
L'opération de remplacement sera lancée vers 8h au matin du 08/12/2018
Durée estimative : ~10/15mns.

Merci,
Equipe technique

#12 Maintenances Serveurs » [06/09/18] Incident tournevis » 2018-09-06 19:09:30

o2switch
Réponses : 0

Bonjour,

Nous travaillons sur un incident, plateforme tournevis.
Nous faisons au plus tôt pour rétablir les accès des personnes concernées.

Cordialement
Equipe o2switch

#13 Maintenances Serveurs » [29/08/18] Plateforme tisane » 2018-08-29 14:27:38

o2switch
Réponses : 0

Bonjour,

Plantage détecté par monitoring sur "tisane".
Une grappe disques ne répond plus. On change le matériel et on relance.
Durée ~10/15mns.

Pas d'incident à prévoir sur l'intégrité des données.

Equipe o2switch

#14 Maintenances Serveurs » [28/08/18] Interventions nuit » 2018-08-28 03:17:59

o2switch
Réponses : 0

Bonjour,

Interventions dans la nuit du 28 Aout. ~3-4h du matin.

* Plateforme gesier : Instabilité mémoire suite à upgrade kernel "soft". (mémoire)
Nécessite un reboot hard du kernel. ~15/20mns.

* Plateforme framboise : Problème sur nappe SAS. Vitesse dégradée.
Nécessite un changement de nappe à réaliser dans la nuit. + rebuild raid.
~10/15mns.

* Plateforme kilo : Erreurs 503 constatées par un client du support.
Le frontal bloque massivement des bots malveillants. Pendant ce blocage, des fragments de mémoire sont utilisés.
Erreur possible sur ces fragments, et la partition de loop relative.
Par principe de précaution, remplacement intégral de la ram + rajout capacitif dans la foulée.
~15/20mns.

L'équipe technique reste à disposition
o2switch

#15 Maintenances Serveurs » [15/08/18] Problème alimentation Cobra » 2018-08-15 22:43:28

o2switch
Réponses : 0

Bonjour,

L'équipe de nuit va procéder au changement de l'alimentation redondée d'un serveur de la plateforme cobra.
Raison : bruit fort et anormal du serveur. (condensateur)

Nous vérifions en effet chaque jour, dans nos process de fonctionnement, l'état "visuel" et "auditif" des divers serveurs.
Remplacement sur la plage 23h-minuit. 5mns de coupure environ.

Avec nos excuses pour la gène générée,
Cordialement
Equipe o2switch

#18 Maintenances Serveurs » [05/08/18] Matrix » 2018-08-05 11:12:26

o2switch
Réponses : 1

Bonjour,

Nous détectons un incident disque sur la plateforme "matrix".
Pas de perturbation visible des hébergés

[2381223.648710] blk_update_request: I/O error, dev sdh, sector 1953082943
[2381223.648944] sd 8:0:0:0: [sdh] FAILED Result: hostbyte=DID_BAD_TARGET driverbyte=DRIVER_OK
[2381223.648946] sd 8:0:0:0: [sdh] CDB: Read(10) 28 00 74 69 ad bf 00 00 80 00
[2381223.648948] blk_update_request: I/O error, dev sdh, sector 1953082815
[2381223.649175] blk_update_request: I/O error, dev sdh, sector 79


Cependant, ceci nécessite une intervention pĥysique.
L'intervention sera réalisée en critère d'urgence/période creuse ce Dimanche 5 Aout 2018.

Perturbation possible ~ 5 minutes.

Cordialement
Equipe Technique

#19 Maintenances Serveurs » [05/08/18] Dolphin » 2018-08-05 11:07:45

o2switch
Réponses : 1

Bonjour,

Nous détectons une défaillance sur le système de stockage de la plateforme "dolphin".
Intervention réalisée, changement du stockage défectueux.

Perturbation d'opération : rien à prévoir.

Perturbations passées :
Panne détectée par deux reboots intempestifs 'kernel panic'.
Dimanche 5/08/18 8h30
Dimanche 5/08/18 12h02
de chacun 2/3mns.

Cordialement
Equipe o2switch

#20 Maintenances Serveurs » [29/05/2018] Evolution/fix matériel sur klever/nice » 2018-05-29 13:43:43

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser une opération matérielle et d'urgence sur deux grappes : nice et klever
L'opération sera réalisée le 29/05/2018 vers 15h15-30. Durée : 15mns environ.

Cordialement
Equipe o2switch

#21 Maintenances Générales » [20/05/2018] Incident boucle optique » 2018-05-20 18:34:05

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré une problématique liée à une rupture optique ce Dimanche 19h pour la région Auvergne-Rhône-Alpes.
La rupture est directement localisée chez Covage, l'opérateur d'infrastructures en voierie. (DSP chargée des fourreaux / boucles locales).

Plusieurs équipement réseaux, permettant la gestion de longueurs d'ondes (équipements infinera) ont rencontré des incidents en cascade.
Un agent d'astreinte de Covage est intervenu sur site, l'ensemble des liaisons ont été UP vers 19h20.

Nous avons de notre côté re-routé le trafic par un chemin secondaire passant par le Sud de la France, qui reste en surveillance.
L'interco directe Clermont-Fd <> Nord/Est/Ouest en sus du chemin secondaire sera rétablie en l'absence de nouvel incident d'ici 20h.

Le re-routage n'impacte pas les performances des hébergés.
Les serveurs physiques n'ont pas eu de coupure à notifier, l'intégrité des données, tout incident en rapport avec un compte d'hébergement précis n'a pas de rapport avec la présente note de maintenance.

Cordialement,
Equipe o2switch,

#22 Re : Maintenances Générales » [11/03/18] Incident connectivité » 2018-03-11 13:55:50

Bonjour,

Nous venons de compléter la mise en place de certains matériels sur l'infrastructure réseau.
En effet, nous avons profité de cette attaque et des malheureuses conséquences pour faire évoluer certains équipements en transparence.

Ces derniers vont permettre de vous proposer, sous peu, des fonctions avancées dans la partie "Experts du Web" du cPanel. Particulièrement pour le monde SEO et l'univers des CMS.
Dès que tout sera prêt, nous vous tiendrons bien entendu informés!

Equipe o2switch

#23 Re : Maintenances Générales » [11/03/18] Incident connectivité » 2018-03-11 10:54:08

Bonjour.

Nous vous informons que l'incident est solutionné.
Quelques perturbations peuvent exister, mais disparaissent actuellement.
Aussi, et si des problèmes individuelles existent, merci d'ouvrir une demande de support à support@o2switch.fr

Une attaque DDoS vise à saturer les liens d'un prestataire afin d'injecter du trafic malveillant, et perturbant la bonne continuité des services.

Les attaques DDoS persistent, et c'est une bonne chose. Nous allons les utiliser, avec certains transitaires, afin de remonter et faire constater l'origine juste un plan juridique. Par un concours de circonstances, le peer d'origine peut être repéré relativement facilement, ceci malgrès des IP spoofées. (usurpées)
Le tout dans l'intérêt de notre clientèle.

Concrètement, que c'est il passé ?
Les attaques DDoS en cours depuis Vendredi étaient bloquées par Arbor, une solution anti-DDoS reconnue sur le marché.
Ces attaques ont commencé Vendredi dans le milieu d'après midi et n'étaient alors pas visibles.

Arbor faisant son travail, nos techniciens modifiaient à chaque fois les règles afin de filtrer les attaques.
Sur ce principe, l'attaquant a directement ciblé les adresses IP qui servent à interconnecter o2switch à ses prestataires en bande passante. IP appartenant à ces prestataires.

Alors et malheureusement, impossible de traiter le DDoS de notre côté...
Les liens uplinks eux mêmes, à défaut d'êtres saturés, n'étaient plus accessibles du fait des transitaires.
La circonstance nous a rendu dépendant de tiers, d'où un délai constaté dans le rétablissement.

Certains transitaires ont ajusté les mécanismes de protection de leur propre côté, en faisant une nouvelle configuration évitant la gène.
Nous travaillons alors toujours étroitement avec eux afin de surveiller le service sur la durée.

Cordialement,
Equipe o2switch

#25 Re : Maintenances Générales » [11/03/18] Incident connectivité » 2018-03-11 06:31:38

Quel est l'incident en cours chez o2switch ?

Nous recevons des attaques massives, de type DDoS, depuis le Vendredi 09 et à destination de notre réseau.
Ces attaques ont été bloqué, avec succès, par anti-DDoS Arbor malgrès une masse, et amplitude très importante.

Dans la nuit du Samedi 10 au Dimanche 11, les attaques ont pris une ampleur conséquente.

Même si nous avons l'habitude de ce genre d'attaques, bloquées avec succès et habituellement sans impact, cela a eu pour effet de :
- Bloquer totalement l'un de nos transitaires, Zayo/Neo.
- Bloquer deux autres liens principaux de transit.

Concrètement, les mécanismes de protection chez nos transitaires ont "sauté" suite aux attaques.
- Nos routeurs n'arrivent plus à annoncer les routes nécessaires à l'écoulement de la bande passante. (vu que les transitaires ne répondent plus correctement)
- Par extension, de provoquer une perte de connectivité.

La problématique doit alors être résolue chez nos transitaires, qui travaillent activement au rétablissement des services. Dont et principalement Zayo/Neo Telecom.

Nous sommes alors directement dépendant des opérateurs, qualitatifs, auquels nous souscrivons de la bande passante.
Nous attendons rétablissement afin de ré-activer les routes, ainsi que l'ensemble des protections Anti-DDoS.

Nous n'avons pas eu d'ETA dans l'immédiat.

Cordialement,
Equipe o2switch