Annonce

#1 Maintenances Serveurs » [25/11/2020] Kernel-panic, node de "peche" » 2020-11-25 14:31:57

o2switch
Réponses : 0

Bonjour,

Un serveur de "peche" a rencontré une erreur kernel. (kernelpanic)
Un redémarrage d'urgence a été lancé immédiatement.

Durée d'impact : ~10mns.
Le matériel sera vérifié après redémarrage, mais aucun signe ne laisse penser à une défaillance autre que logicielle.

Cordialement
Equipe Technique.

#2 Maintenances Serveurs » [25/11/2020] Redémarrage requis sur deux nodes, barracuda/tropical » 2020-11-25 14:30:22

o2switch
Réponses : 0

Bonjour,

Afin d'appliquer une mise à jour urgente, nous devons relancer deux nodes sur tropical et barracuda.
L'opération sera réalisée à 14h30 sur critère prioritaire.

Durée : ~15mns.

Cordialement,
Merci de votre compréhension.

#3 Maintenances Serveurs » [13/11/2020] Maintenance "poivre" » 2020-11-13 08:38:14

o2switch
Réponses : 0

Bonjour,

Suite à des problématiques sur la partie SQL de "poivre" nous devons réaliser une maintenance curative et définitive.
Cette maintenance sera réalisée entre 8h30 et 9h. Et devrait durer quelques minutes.

Cordialement
Service Technique

#4 Maintenances Serveurs » [11/11/2020] Incident "felix" » 2020-11-11 11:46:11

o2switch
Réponses : 0

Bonjour,

Un serveur du node felix a rencontré un incident sur un support de stockage lié au système.
Le support concerné (qui était neuf) a été changé, et les données systèmes concernées restaurées.

Cordialement
Equipe Technique

#5 Maintenances Serveurs » [04/11/2020] Action nécessaire sur "camembert" » 2020-11-04 08:27:53

o2switch
Réponses : 0

Bonjour,

Nous devons intervenir physiquement sur le node camembert.
L'opération devrait durer ~15mns, et sera réalisée peu avant 9h ce matin.

Equipe Technique

#6 Maintenances Serveurs » [21/10/2020] Incident "switchy" » 2020-10-21 05:40:57

o2switch
Réponses : 0

Bonjour,

Le node switchy a rencontré un incident sur un volume RAID. Ce dernier ne répondait plus et n'arrivait pas à être reconstruit automatiquement/ à chaud.
Nous avons été contraint de refaire le volume à neuf, puis de restaurer manuellement à partir d'un rescue du volume RAID défaillant.
Pas de perte de données. Pas de nécessité de restaurer un backup côté o2switch ou hébergé.

Nos monitorings ont détecté l'incident à partir de 0hH30 environ. Nous avons finalisé l'opération vers 6h du matin.
(temps incompressible d'opération technique)

Merci de votre confiance,
Equipe Technique

#7 Maintenances Serveurs » [21/10/2020] Incident "olium" » 2020-10-21 05:37:35

o2switch
Réponses : 0

Bonjour,

Nous constatons un incident sur le node "olium". Investigations en cours.

Cordialement
Service Technique

#8 Maintenances Serveurs » [15/08/2020] Incident "gateau" » 2020-08-15 20:12:00

o2switch
Réponses : 0

Bonjour,

Notre équipe a été alerté/a constaté par monitoring le reboot intempestif d'un node de "gateau".
Nous avons investigué l'origine de ces reboots, et aucune partie "software" ne peut en être responsable : le kernel part alors en panic sans raison, sans charge, ni élément complémentaire d'investigation.

Il apparait qu'un RAID SSD a posé problème, sur les partitions de boot et système.
Après tentative de réparation sans effet, et dans la mesure où une réparation va prendre plus de temps qu'un remplacement : nous changeons totalement le node.

Les données sont naturellement intactes, et nous recopions le RAID sur des mediums neufs.
Le serveur devrait remonter dès que possible, et dès opération physique, à durée incompressible, sera terminée.

Cordialement
Equipe Technique

#9 Maintenances Serveurs » [14/08/2020] Incident matériel "klon" » 2020-08-14 07:39:19

o2switch
Réponses : 0

Bonjour,

Un node de "klon" rencontre actuellement un incident matériel.
Une recopie d'un volume RAID est en cours : le délai de rétablissement dépend alors de la recopie physique. La recopie ne pouvait, dans le cas présent, être réalisée à chaud.

Début : 8h15.

Cordialement
Equipe technique

#10 Maintenances Serveurs » [24/06/2020] Opérations "ronron" "green" "madrid" » 2020-06-24 07:01:48

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser une opération technique d'urgence sur ces trois nodes.
Cette dernière va générer un reboot physique de certains serveurs de "ronron", "green" et "madrid". Le tout va revenir seul.
L'opération sera réalisée vers 7h30 du matin.

Cordialement
Equipe Technique

#11 Maintenances Serveurs » [02/05/2020] Incident noimine » 2020-05-02 18:24:43

o2switch
Réponses : 0

Bonjour,

Le node noimine rencontre actuellement une perte d'accès réseau.
Le serveur fonctionne mais son interface réseau physique ne répond plus. Pas d'opération anormale.

Contexte : Sur certains serveurs nous rajoutons une carte d'extension SFP/SFP+ pour passer en switch fibre/port 10gbps, et non RJ45 classique.

Problème : La carte concernée ne répond plus. Ce jour est la 2eme fois constatée. La 1ere fois un changement de driver kernel a été réalisé. Nous devons alors relancer physiquement le node.

L'opération est en cours. Si le cas se reproduit, la carte SFP+ sera changée de manière planifiée.

Cordialement
Equipe Technique

#12 Re : Maintenances Serveurs » [Début 2020] Mises à jour matérielles d'anciens clusters » 2020-04-19 17:23:49

Bonjour,

Nous avons terminé 90% des migrations.
Les 10% que nous devons finaliser seront traités la semaine prochaine. Le tout s'est déroulé, dans la généralité, sans encombre.

Néanmoins, l'hôte wine, migré ce matin, rencontre un incident : il redémarre aléatoirement.
Nous avons pu localiser un incident matériel (problème carte mère/mémoire du chassis serveur, le tout étant pourtant neuf)
Nous remplaçons. Un changement mémoire préalable n'a pas solutionné le cas.

Cordialement
Equipe Technique

#13 Re : Maintenances Serveurs » [Début 2020] Mises à jour matérielles d'anciens clusters » 2020-04-10 19:22:54

Bonjour,

Compte tenu de la crise sanitaire du Covid-19, les besoins de nos hébergés changent et les serveurs ne peuvent avoir une coupure, même minime, en semaine.
Les migrations planifiées sont complétées à 70% à ce jour.

Nous avons décidé de prendre des périodes fixes afin de procéder aux serveurs restants.
Les migrations seront réalisées les Samedi et Dimanche à partir de 4h du matin. Ceci pendant, normalement, deux week ends consécutifs.

Ainsi, nous espérons rendre invisible ces opérations pour nos hébergés.

Cordialement
Equipe Technique.

#14 Maintenances Serveurs » [07/04/2020] Incident "pasta" » 2020-04-07 22:32:30

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré un incident majeur sur le node pasta.
L'ensemble a été restauré. et les services reviennent progressivement sans perte de donnée.
Le serveur impacté reste en salle technique/observation, et sera re-déplacé en baie ultérieurement, après que tout soit confirmé fonctionnel.

Type d'incident : défaillance d'une des deux alimentations d'un serveur physique.
Survoltage sur le matériel derrière l'alimentation qui n'a pas coupé, remplacement matériel total nécessaire.

Cordialement
Equipe Technique.

#15 Maintenances Serveurs » [28/03/2020] Incident "klon" » 2020-03-28 22:22:46

o2switch
Réponses : 0

Bonjour,

Un serveur physique a rencontré un kernel panic nécessitant un redémarrage manuel.
Après investigations, des erreurs IO sur un disque en RAID ont généré le blocage.
Le serveur a été redémarré, le disque changé. Aucune perte de donnée.

Nombre de comptes d'hébergement impactés : ~70.
Début : 21h50
Fin d'incident : 22h15

Bon weekend,
Equipe Technique.

#16 Maintenances Serveurs » [12/03/2020] Incident "dinde" » 2020-03-12 19:45:02

o2switch
Réponses : 0

Bonjour,

Nous rencontrons un incident sur l'hôte "dinde".
A 13h45 une alerte a porté une défaillance sur un volume raid, matériel, relatif à MySQL.
Nous avons réussi à relancer le volume en remplaçant un des disques NVMe posant problème.

Nous constatons depuis 18h des erreurs InnoDB persistantes. cela malgrés le remplacement matériel.
De fait, nous restaurons une copie express (de 18h) des bases, sur un moteur à neuf.
L'opération est en cours, et devrait rapidement être finalisée.

Cette opération ne concerne que l'hôte dinde et environ 80 sites. Nous travaillons au plus vite.

Cordialement
Equipe Technique

#17 Maintenances Serveurs » [19/02/2020] Incident SSL » 2020-02-19 18:52:28

o2switch
Réponses : 0

Bonjour,

Le déploiement d'un patch a provoqué une gène sur ~15 serveurs physiques. (sur plusieurs centaines).
La gestion SSL répondait alors par une erreur de protocole, ceci malgrès des tests nombreux et préalables réalisés.

Nous nous excusons de la gène générée.
Le déploiement étant réalisé manuellement, serveur par serveur, seuls quelques sites ont rencontré une gène.
Nous avons immédiatement stoppé l'opération dès constatation du cas.

Un rollback a été mis en place afin de revenir sur la configuration d'origine.
L'incident aura impacté les sites concernés pendant ~10mns.

Nous nous excusons vivement de la gène générée. Nous travaillons à trouver l'origine du cas, et naturellement l'incident ne peut pas se reproduire.

Cordialement
Equipe Technique

#18 Maintenances Serveurs » [13/02/2020] Incident smtp chez Orange » 2020-02-13 16:32:48

o2switch
Réponses : 0

Bonjour,

Un incident existe actuellement chez Orange, sans rapport avec o2switch, et qui impacte l'ensemble des hébergeurs/prestataires de messagerie.
Les serveurs SMTP d'Orange ne répondent plus correctement, et rejettent alors les messages sous motif d'une erreur 108.

Erreur: 421 mwinf5c34 ME Service refuse. Veuillez essayer plus tard. Service refused, please try later. OFR_108; [108]

Aucune action n'est possible de votre côté, ou de notre côté.
Vous devrez refaire vos envois. et/ou attendre qu'Orange accepte les messages en attente, dès résolution chez eux.

Cordialement
Equipe Technique

#19 Maintenances Serveurs » [07/02/2020] Incident "king" » 2020-02-07 22:23:46

o2switch
Réponses : 0

Bonjour,

Un incident matériel est en cours sur le node "king"
Nous sommes bien informés, et en traitement.

Cordialement
Equipe Technique

#20 Maintenances Serveurs » [Début 2020] Mises à jour matérielles d'anciens clusters » 2020-01-31 15:32:07

o2switch
Réponses : 2

Bonjour,

Dans le cadre de l'évolution constante des services, o2switch est amené à mettre à jour les configurations physiques de ses serveurs.
Ceci, afin de coller aux usages futurs, et de pouvoir proposer à nos hébergés des services toujours plus performants et complets.

Les mises à jour matérielles sont totalement gratuites, et n'altèrent pas les données ou configurations des hébergés.
Il n'est pas nécessaire de contacter nos services pour en bénéficier.
Cela permet alors et par exemple d'actualiser les CPU exploités qui sont toujours dans les dernières générations possibles.

Nous préparons préalablement de nouveaux serveurs, et installons, dessus, les unités de stockage.
Une mise à jour matérielle est alors presque invisible : elle ne nécessite qu'une opération de redémarrage avec pose/dépose des volumes de données. Le tout, d'une durée moyenne de 10 à 15mns. L'équivalent d'une mise à jour d'un noyau Linux classique (que nous réalisons habituellement à chaud et sans coupure).

Sont exclusivement concernés les comptes d'hébergement créés avant début 2019.


# Comment procédons nous ?

L'évolution physique sera réalisée pendant une tranche de temps importante, de fin Janvier 2020 à Mars 2020. Progressivement et de telle manière à ce que l'opération soit neutre pour nos hébergés.
Pendant cette tranche, nous repérons les périodes de faible affluence en visiteurs. et, lorsque les conditions techniques permettent l'évolution nous procédons au redémarrage de chaque serveur sur son nouveau node.


# Et l'écologie dans tout cela ?

Nous avons conscience que des serveurs neufs et/ou à jour matériellement génèrent un nombre conséquent de serveurs à recycler pour un hébergeur de la taille d'o2switch.
C'est néanmoins une condition pour proposer des services d'excellence.

N'ayez pas d'inquiétude pour cela !
Tout matériel déposé, qui ne contient aucun élément personnel/aucune donnée, sera recyclé.
Ce recyclage consiste à donner une seconde vie au matériel, en, par exemple, valorisant ce dernier auprès de sociétés spécialisées. Ou encore, en re-vendant les serveurs à des confrères, moins regardant sur l'âge et la génération du matériel.

A votre service!
Equipe o2switch

#21 Maintenances Serveurs » [29/12/2019] Incident électrique sur baie » 2019-12-30 01:45:47

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré un incident électrique sur une baie de serveurs.
En amont de certains serveurs, nous utilisons un STS qui est un mécanisme destiné à coupler plusieurs sources d'alimentations afin de faire une distribution sur un PDU. (bandeau de prises IEC)

Le STS en question a brûlé, faisant alors disjoncteur une prise 32A qui alimente la baie. et de facto, l'ensemble des serveurs de cette dernière.
Nous avons donc procédé par urgence :

- Les mécanismes de coupure ont fonctionné. Les deux sources d'alimentation de la baie sont tombées afin de protéger les serveurs et l'installation électrique.
- Le STS a été retiré.
- L'alimentation a été changé, et les serveurs rebranchés en urgence sur la nouvelle alimentation.

L'ensemble des serveurs (~12 concernés) ont été relancés sans encombre progressivement, au bout d'environ 15 à 20mns.
Un serveur a été détecté comme responsable de l'incident sur le STS, pasta. Nous investiguons sur l'origine. Le STS n'aurait pas du être impacté (plus organes de protections) et le fabriquant sera informé de l'état.
Le serveur a été totalement isolé, retiré. Nous avons déplacé ses disques vers un serveur neuf, et relancé l'ensemble.

L'ensemble des services est restauré.

Equipe Technique

#22 Maintenances Serveurs » [24/12/2019 Maintenances » 2019-12-24 12:03:07

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser des maintenances importantes sur certains serveurs.
Le 24/12 étant une journée relativement creuse avec les fêtes de fin d'année, nous allons, dans la journée, réaliser ces dernières.
Les serveurs impactés seront relancés (~5 sur plusieurs centaines). Durée de perturbation : ~15/20mns.

Cordialement
Equipe Technique,

#23 Maintenances Serveurs » [09/12/2019] Incident "alligator" » 2019-12-09 19:31:25

o2switch
Réponses : 0

Bonjour,

Nous avons constaté à deux reprises et consécutivement une des-synchronisation, et une dégradation des grappes raid de l'hôte alligator. Impatant alors la disponibilité et la vitesse.
Notre équipe a traité l'incident, et a remplacé physiquement le matériel présumé défectueux.

Incident 1 : ~18h. Durée de perturbation : ~ 20mns.
Incident 2 : ~19h, Durée de perturbation : ~ 10mns.

La situation doit revenir optimale suite à l'action réalisée.

Merci de votre compréhension.
Equipe Technique

#24 Maintenances Serveurs » [04/11/2019] Relance nécessaire sur "kilo" » 2019-11-04 09:13:28

o2switch
Réponses : 0

Bonjour,

Afin de finaliser une opération urgente, la plateforme kilo doit être relancée.
Cette opération sera réalisée dans la matiné du Lundi 4 Novembre. Temps estimé : 10/15mns.

Merci de votre compréhension,
Equipe Technique,

#25 Maintenances Serveurs » [28/05/19] Routage interne ipXtender/LSCache/XtremCache » 2019-05-28 21:04:34

o2switch
Réponses : 0

Bonjour,

Nous avons traité un incident de routage interne sur la plateforme ipXtender, qui impactait par ailleurs LSCache et XtremCache.
Cause : un des systèmes de load balancer HS.  Panne matérielle lourde.
Opération réalisée : remplacement physique du load balancer impacté.

Durée de perturbation : ~ 15mns.
Date : 28/05/19 ~21h30 - Heure de Paris

Equipe Technique o2switch