Annonce

#1 Maintenances Serveurs » [15/08/2020] Incident "gateau" » 2020-08-15 20:12:00

o2switch
Réponses : 0

Bonjour,

Notre équipe a été alerté/a constaté par monitoring le reboot intempestif d'un node de "gateau".
Nous avons investigué l'origine de ces reboots, et aucune partie "software" ne peut en être responsable : le kernel part alors en panic sans raison, sans charge, ni élément complémentaire d'investigation.

Il apparait qu'un RAID SSD a posé problème, sur les partitions de boot et système.
Après tentative de réparation sans effet, et dans la mesure où une réparation va prendre plus de temps qu'un remplacement : nous changeons totalement le node.

Les données sont naturellement intactes, et nous recopions le RAID sur des mediums neufs.
Le serveur devrait remonter dès que possible, et dès opération physique, à durée incompressible, sera terminée.

Cordialement
Equipe Technique

#2 Maintenances Serveurs » [14/08/2020] Incident matériel "klon" » 2020-08-14 07:39:19

o2switch
Réponses : 0

Bonjour,

Un node de "klon" rencontre actuellement un incident matériel.
Une recopie d'un volume RAID est en cours : le délai de rétablissement dépend alors de la recopie physique. La recopie ne pouvait, dans le cas présent, être réalisée à chaud.

Début : 8h15.

Cordialement
Equipe technique

#3 Maintenances Serveurs » [24/06/2020] Opérations "ronron" "green" "madrid" » 2020-06-24 07:01:48

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser une opération technique d'urgence sur ces trois nodes.
Cette dernière va générer un reboot physique de certains serveurs de "ronron", "green" et "madrid". Le tout va revenir seul.
L'opération sera réalisée vers 7h30 du matin.

Cordialement
Equipe Technique

#4 Maintenances Serveurs » [02/05/2020] Incident noimine » 2020-05-02 18:24:43

o2switch
Réponses : 0

Bonjour,

Le node noimine rencontre actuellement une perte d'accès réseau.
Le serveur fonctionne mais son interface réseau physique ne répond plus. Pas d'opération anormale.

Contexte : Sur certains serveurs nous rajoutons une carte d'extension SFP/SFP+ pour passer en switch fibre/port 10gbps, et non RJ45 classique.

Problème : La carte concernée ne répond plus. Ce jour est la 2eme fois constatée. La 1ere fois un changement de driver kernel a été réalisé. Nous devons alors relancer physiquement le node.

L'opération est en cours. Si le cas se reproduit, la carte SFP+ sera changée de manière planifiée.

Cordialement
Equipe Technique

#5 Re : Maintenances Serveurs » [Début 2020] Mises à jour matérielles d'anciens clusters » 2020-04-19 17:23:49

Bonjour,

Nous avons terminé 90% des migrations.
Les 10% que nous devons finaliser seront traités la semaine prochaine. Le tout s'est déroulé, dans la généralité, sans encombre.

Néanmoins, l'hôte wine, migré ce matin, rencontre un incident : il redémarre aléatoirement.
Nous avons pu localiser un incident matériel (problème carte mère/mémoire du chassis serveur, le tout étant pourtant neuf)
Nous remplaçons. Un changement mémoire préalable n'a pas solutionné le cas.

Cordialement
Equipe Technique

#6 Re : Maintenances Serveurs » [Début 2020] Mises à jour matérielles d'anciens clusters » 2020-04-10 19:22:54

Bonjour,

Compte tenu de la crise sanitaire du Covid-19, les besoins de nos hébergés changent et les serveurs ne peuvent avoir une coupure, même minime, en semaine.
Les migrations planifiées sont complétées à 70% à ce jour.

Nous avons décidé de prendre des périodes fixes afin de procéder aux serveurs restants.
Les migrations seront réalisées les Samedi et Dimanche à partir de 4h du matin. Ceci pendant, normalement, deux week ends consécutifs.

Ainsi, nous espérons rendre invisible ces opérations pour nos hébergés.

Cordialement
Equipe Technique.

#7 Maintenances Serveurs » [07/04/2020] Incident "pasta" » 2020-04-07 22:32:30

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré un incident majeur sur le node pasta.
L'ensemble a été restauré. et les services reviennent progressivement sans perte de donnée.
Le serveur impacté reste en salle technique/observation, et sera re-déplacé en baie ultérieurement, après que tout soit confirmé fonctionnel.

Type d'incident : défaillance d'une des deux alimentations d'un serveur physique.
Survoltage sur le matériel derrière l'alimentation qui n'a pas coupé, remplacement matériel total nécessaire.

Cordialement
Equipe Technique.

#8 Maintenances Serveurs » [28/03/2020] Incident "klon" » 2020-03-28 22:22:46

o2switch
Réponses : 0

Bonjour,

Un serveur physique a rencontré un kernel panic nécessitant un redémarrage manuel.
Après investigations, des erreurs IO sur un disque en RAID ont généré le blocage.
Le serveur a été redémarré, le disque changé. Aucune perte de donnée.

Nombre de comptes d'hébergement impactés : ~70.
Début : 21h50
Fin d'incident : 22h15

Bon weekend,
Equipe Technique.

#9 Maintenances Serveurs » [12/03/2020] Incident "dinde" » 2020-03-12 19:45:02

o2switch
Réponses : 0

Bonjour,

Nous rencontrons un incident sur l'hôte "dinde".
A 13h45 une alerte a porté une défaillance sur un volume raid, matériel, relatif à MySQL.
Nous avons réussi à relancer le volume en remplaçant un des disques NVMe posant problème.

Nous constatons depuis 18h des erreurs InnoDB persistantes. cela malgrés le remplacement matériel.
De fait, nous restaurons une copie express (de 18h) des bases, sur un moteur à neuf.
L'opération est en cours, et devrait rapidement être finalisée.

Cette opération ne concerne que l'hôte dinde et environ 80 sites. Nous travaillons au plus vite.

Cordialement
Equipe Technique

#10 Maintenances Serveurs » [19/02/2020] Incident SSL » 2020-02-19 18:52:28

o2switch
Réponses : 0

Bonjour,

Le déploiement d'un patch a provoqué une gène sur ~15 serveurs physiques. (sur plusieurs centaines).
La gestion SSL répondait alors par une erreur de protocole, ceci malgrès des tests nombreux et préalables réalisés.

Nous nous excusons de la gène générée.
Le déploiement étant réalisé manuellement, serveur par serveur, seuls quelques sites ont rencontré une gène.
Nous avons immédiatement stoppé l'opération dès constatation du cas.

Un rollback a été mis en place afin de revenir sur la configuration d'origine.
L'incident aura impacté les sites concernés pendant ~10mns.

Nous nous excusons vivement de la gène générée. Nous travaillons à trouver l'origine du cas, et naturellement l'incident ne peut pas se reproduire.

Cordialement
Equipe Technique

#11 Maintenances Serveurs » [13/02/2020] Incident smtp chez Orange » 2020-02-13 16:32:48

o2switch
Réponses : 0

Bonjour,

Un incident existe actuellement chez Orange, sans rapport avec o2switch, et qui impacte l'ensemble des hébergeurs/prestataires de messagerie.
Les serveurs SMTP d'Orange ne répondent plus correctement, et rejettent alors les messages sous motif d'une erreur 108.

Erreur: 421 mwinf5c34 ME Service refuse. Veuillez essayer plus tard. Service refused, please try later. OFR_108; [108]

Aucune action n'est possible de votre côté, ou de notre côté.
Vous devrez refaire vos envois. et/ou attendre qu'Orange accepte les messages en attente, dès résolution chez eux.

Cordialement
Equipe Technique

#12 Maintenances Serveurs » [07/02/2020] Incident "king" » 2020-02-07 22:23:46

o2switch
Réponses : 0

Bonjour,

Un incident matériel est en cours sur le node "king"
Nous sommes bien informés, et en traitement.

Cordialement
Equipe Technique

#13 Maintenances Serveurs » [Début 2020] Mises à jour matérielles d'anciens clusters » 2020-01-31 15:32:07

o2switch
Réponses : 2

Bonjour,

Dans le cadre de l'évolution constante des services, o2switch est amené à mettre à jour les configurations physiques de ses serveurs.
Ceci, afin de coller aux usages futurs, et de pouvoir proposer à nos hébergés des services toujours plus performants et complets.

Les mises à jour matérielles sont totalement gratuites, et n'altèrent pas les données ou configurations des hébergés.
Il n'est pas nécessaire de contacter nos services pour en bénéficier.
Cela permet alors et par exemple d'actualiser les CPU exploités qui sont toujours dans les dernières générations possibles.

Nous préparons préalablement de nouveaux serveurs, et installons, dessus, les unités de stockage.
Une mise à jour matérielle est alors presque invisible : elle ne nécessite qu'une opération de redémarrage avec pose/dépose des volumes de données. Le tout, d'une durée moyenne de 10 à 15mns. L'équivalent d'une mise à jour d'un noyau Linux classique (que nous réalisons habituellement à chaud et sans coupure).

Sont exclusivement concernés les comptes d'hébergement créés avant début 2019.


# Comment procédons nous ?

L'évolution physique sera réalisée pendant une tranche de temps importante, de fin Janvier 2020 à Mars 2020. Progressivement et de telle manière à ce que l'opération soit neutre pour nos hébergés.
Pendant cette tranche, nous repérons les périodes de faible affluence en visiteurs. et, lorsque les conditions techniques permettent l'évolution nous procédons au redémarrage de chaque serveur sur son nouveau node.


# Et l'écologie dans tout cela ?

Nous avons conscience que des serveurs neufs et/ou à jour matériellement génèrent un nombre conséquent de serveurs à recycler pour un hébergeur de la taille d'o2switch.
C'est néanmoins une condition pour proposer des services d'excellence.

N'ayez pas d'inquiétude pour cela !
Tout matériel déposé, qui ne contient aucun élément personnel/aucune donnée, sera recyclé.
Ce recyclage consiste à donner une seconde vie au matériel, en, par exemple, valorisant ce dernier auprès de sociétés spécialisées. Ou encore, en re-vendant les serveurs à des confrères, moins regardant sur l'âge et la génération du matériel.

A votre service!
Equipe o2switch

#14 Maintenances Serveurs » [29/12/2019] Incident électrique sur baie » 2019-12-30 01:45:47

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré un incident électrique sur une baie de serveurs.
En amont de certains serveurs, nous utilisons un STS qui est un mécanisme destiné à coupler plusieurs sources d'alimentations afin de faire une distribution sur un PDU. (bandeau de prises IEC)

Le STS en question a brûlé, faisant alors disjoncteur une prise 32A qui alimente la baie. et de facto, l'ensemble des serveurs de cette dernière.
Nous avons donc procédé par urgence :

- Les mécanismes de coupure ont fonctionné. Les deux sources d'alimentation de la baie sont tombées afin de protéger les serveurs et l'installation électrique.
- Le STS a été retiré.
- L'alimentation a été changé, et les serveurs rebranchés en urgence sur la nouvelle alimentation.

L'ensemble des serveurs (~12 concernés) ont été relancés sans encombre progressivement, au bout d'environ 15 à 20mns.
Un serveur a été détecté comme responsable de l'incident sur le STS, pasta. Nous investiguons sur l'origine. Le STS n'aurait pas du être impacté (plus organes de protections) et le fabriquant sera informé de l'état.
Le serveur a été totalement isolé, retiré. Nous avons déplacé ses disques vers un serveur neuf, et relancé l'ensemble.

L'ensemble des services est restauré.

Equipe Technique

#15 Maintenances Serveurs » [24/12/2019 Maintenances » 2019-12-24 12:03:07

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser des maintenances importantes sur certains serveurs.
Le 24/12 étant une journée relativement creuse avec les fêtes de fin d'année, nous allons, dans la journée, réaliser ces dernières.
Les serveurs impactés seront relancés (~5 sur plusieurs centaines). Durée de perturbation : ~15/20mns.

Cordialement
Equipe Technique,

#16 Maintenances Serveurs » [09/12/2019] Incident "alligator" » 2019-12-09 19:31:25

o2switch
Réponses : 0

Bonjour,

Nous avons constaté à deux reprises et consécutivement une des-synchronisation, et une dégradation des grappes raid de l'hôte alligator. Impatant alors la disponibilité et la vitesse.
Notre équipe a traité l'incident, et a remplacé physiquement le matériel présumé défectueux.

Incident 1 : ~18h. Durée de perturbation : ~ 20mns.
Incident 2 : ~19h, Durée de perturbation : ~ 10mns.

La situation doit revenir optimale suite à l'action réalisée.

Merci de votre compréhension.
Equipe Technique

#17 Maintenances Serveurs » [04/11/2019] Relance nécessaire sur "kilo" » 2019-11-04 09:13:28

o2switch
Réponses : 0

Bonjour,

Afin de finaliser une opération urgente, la plateforme kilo doit être relancée.
Cette opération sera réalisée dans la matiné du Lundi 4 Novembre. Temps estimé : 10/15mns.

Merci de votre compréhension,
Equipe Technique,

#18 Maintenances Serveurs » [28/05/19] Routage interne ipXtender/LSCache/XtremCache » 2019-05-28 21:04:34

o2switch
Réponses : 0

Bonjour,

Nous avons traité un incident de routage interne sur la plateforme ipXtender, qui impactait par ailleurs LSCache et XtremCache.
Cause : un des systèmes de load balancer HS.  Panne matérielle lourde.
Opération réalisée : remplacement physique du load balancer impacté.

Durée de perturbation : ~ 15mns.
Date : 28/05/19 ~21h30 - Heure de Paris

Equipe Technique o2switch

#19 Re : Maintenances Serveurs » [21/04/2019] Incident "moldavie" » 2019-04-21 13:02:18

Opération terminée.

Début : 13:21:37 GMT+1
Fin : 13:55:12 GMT+1

#20 Re : Maintenances Serveurs » [21/04/2019] Incident "moldavie" » 2019-04-21 12:46:47

Erreur sur contrôleur RAID NVMe.
Remplacement en cours du contrôleur et des chips NVMe.
Recopie de la basedir MySQL. Pas de restauration nécessaire.

Opération en cours de finalisation.

#21 Maintenances Serveurs » [21/04/2019] Incident "moldavie" » 2019-04-21 12:21:37

o2switch
Réponses : 2

Bonjour,

Nous traitons une alerte monitoring réceptionnée sur "moldavie" et rapport au serveur SQL.

Cordialement
Equipe o2switch

#22 Maintenances Serveurs » [15/04/19] Framboise » 2019-04-15 10:21:09

o2switch
Réponses : 0

Bonjour,

Nous avons été alerté d'un incident sur certains comptes d'hébergement, situés sur le node "framboise".
Un défaut d'alimentation sur une grappe raid, à provoqué une desynchronisation des données, vers une date antérieure pour certains hébergés de framboise.

Nous avons fait le nécessaire, et remplacé le matériel défectueux.
Les données à jour sont à présent bien présentes.
Nous faisons le nécessaire pour éviter réitération du cas, qui ne devrait pas se reproduire après remplacement de l'alimentation concernée.

Cordialement
Equipe technique,

#23 Maintenances Serveurs » [30/03/19] Incident "milan" » 2019-03-30 07:22:57

o2switch
Réponses : 0

Bonjour,

Nous détectons un incident sur l'hôte milan.
Nous travaillons dessus, ainsi qu'au rétablissement dans les plus brefs délais.

Equipe Technique.

#24 Maintenances Serveurs » [28/03/19] > [début 04/19] Mises à jour nocturnes » 2019-03-27 20:48:09

o2switch
Réponses : 0

Bonjour,

Nous devons redémarrer physiquement certains serveurs, afin d'appliquer des mises à jour Kernel.
En effet, certains serveurs n'ont pas été redémarré depuis plusieurs centaines de jours. Nous réalisons habituellement des mises à jour par applications de patchs Kernel, ceci permettant d'éviter un redémarrage et de minimiser toute gène.

Cependant, suite à un grand nombre de patchs appliqués, et afin de prévenir toute gène, un redémarrage s'avère nécessaire.
Le temps d'un reboot est d'environ 15 minutes. Cette opération sera réalisée de nuit, soit vers 1h du matin, soit sur la tranche 5h - 6h30.
Nous profiterons de l'opération pour réaliser des améliorations matérielles (renouvellements physiques+rajouts) sans impacter le délai nécessaire.

Cordialement
Equipe Technique

#25 Maintenances Serveurs » [15/03/19] Toaster » 2019-03-15 20:42:46

o2switch
Réponses : 0

Bonjour,

Nous recevons une remontée monitoring pour "toaster".
Un volume du système rencontre une difficulté. Un technicien est sur l'incident.
Recopie en cours d'un volume raid (hotswap n'ayant pas fonctionné comme souhaité).

Prévisionnel ~20mns.
Pas de perte de données, pas d'incident consécutif à prévoir. Le tout va repartir dès recopie terminée,

Cordialement
Equipe o2switch