Annonce

#1 Maintenances Serveurs » [27/04/2021] Incident node "citrus" » 2021-04-27 10:43:09

o2switch
Réponses : 0

Bonjour,

Nous constatons un incident sur le node "citrus".
Certains applicatifs PHP ne fonctionnent plus et retournent une erreur 508.  Une erreur kernel est suspectée.
Un reboot physique a été amorcé et nous travaillons sur l'incident et son origine.

Le tout devrait rapidement devenir actif.
Heure d'incident (France) : 11h15.
Fin d'incident espéré : ~11h35 à 45.

Service Technique

#2 Maintenances Serveurs » [24/04/2020] Incident sur un serveur du node "salade" » 2021-04-24 01:15:18

o2switch
Réponses : 0

Bonjour,

Un serveur physique rencontre un incident : perte du volume principal système sans raison.
Erreur d'attente sur le contrôleur. Le disque a été testé ok. -200hrs de fonctionnement.

Pistes possibles :
- Problème de kernel : kernel remplacé
- Problème de ram : changement complet réalisé
- Problème de cable au contrôleur : changement réalisé

En cas de réitération d'un incident le serveur complet sera changé,
Le serveur physique concerné reste en banc de test jusqu'à Dimanche/Lundi. et fonctionne actuellement en état normal.

Cordialement
Service Technique

#3 Maintenances Serveurs » [29/03/2021] Incident Matrix » 2021-03-29 14:32:36

o2switch
Réponses : 0

Bonjour,

Nous traitons un incident sur un serveur de la plateforme matrix.

Cordialement
Service Technique

#4 Maintenances Serveurs » [03/03/2021] Maintenance service bêta NextCloud » 2021-03-02 19:46:51

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser une opération de maintenance sur le service en bếta d'instances NextCloud.
Cette maintenance peut provoquer des perturbations.
Elle sera réalisée le 03 Mars 2021.

Par la suite, le service sortira de son statut de bêta rapidement.

Cordialement
Service Technique.

#5 Maintenances Serveurs » [12/02/2021] Incident node "chevre" » 2021-02-12 18:51:36

o2switch
Réponses : 0

Bonjour,

Nous constatons un incident sur un volume d'un serveur de la plateforme "chèvre"
Le remplacement du volume est en cours.

Cordialement
Service Technique

#6 Maintenances Serveurs » [12/02/2021] Evolution générale plateforme ipXtender/LSCache/Varnish » 2021-02-12 18:06:12

o2switch
Réponses : 0

Bonjour,

Nous remplaçons la baie en charge des services listés en sujet.
Le but est de réaliser une évolution globale des services concernés.

L'ensemble de la partie réseau est revue avec une tête Arista et des ports 100Gbps frontaux.

L'opération est préparée, et nécessitera une simple bascule des adresses IP sur les nouvelles interfaces.
~1 à 2mns de perturbations à prévoir.

Réalisation sur la tranche 18h>18h30.

Cordialement
Service Technique

#7 Maintenances Serveurs » [27/01/2020] Incident "rixo" » 2021-01-27 19:21:28

o2switch
Réponses : 0

Bonjour,

Notre équipe a constaté des lenteurs par périodes courtes, depuis quelques heures, sur un serveur de l'hôte rixo.
Après analyse, il était à constater des blocages IO, où la lecture des blocks devenait impossible sur un volume RAID.

Nous avons alors testé :
- Le remplacement de chacun des disques, successivement du volume RAID concerné.
Pas de changement.
- Le remplacement du controleur RAID matériel et des cables SAS.
Pas de changement.

En conséquence nous avons changé complètement le serveur impacté.
Les disques SAS et NVMe sont reconnus sans erreur, et le fonctionnement parait optimal.

Le nouveau serveur physique, neuf, reste en observation dans nos salles techniques.
Nous suspectons donc, en origine, le backplane du serveur 2U concerné d'avoir été responsable des erreurs.

Le nouveau serveur sera racké dans la journée du Jeudi 28 Janvier à l'emplacement baie initial.
Date de secours de cette opération : 29 Janvier. Délai ~10mns.
Le serveur défaillant sera détruit.

Cordialement
Service Technique

#8 Maintenances Serveurs » [05/01/2021] Perturbations "santa" » 2021-01-05 17:35:05

o2switch
Réponses : 0

Bonjour,

Nous constatons des perturbations SQL sur un node de "santa".
Après analyse, deux disques simultanés remontent des erreurs de pre-fail sur le volume RAID/Flash en charge d'SQL.

De fait, à titre préventif, nous allons réaliser un changement d'urgence du volume complet.
Début d'opération ~17h45.
Durée d'impact estimée ~15/20mns.
Jour même.

Cordialement
Service Technique

#9 Re : Maintenances Serveurs » [01/12/2020] Incident "klon" » 2020-12-01 19:13:25

Bonjour,

L'opération n'a pas donné l'effet souhaité.
Nous allons réalisé en deux temps :
- Des opérations logicielles, sur la partie kernel du serveur.
- Si persistance, un changement général de tous les médias de stockage. (aucune perte de données ni opération à réaliser côté hébergés)

Cordialement
Service Technique.

#10 Maintenances Serveurs » [01/12/2020] Incident "klon" » 2020-12-01 04:14:00

o2switch
Réponses : 1

Bonjour,

Nous constatons depuis ~24hrs certaines instabilités sur un node physique de "klon".
De fait, l'équipe de nuit a procédé au changement matériel complet du node concerné.

Cordialement
Service Technique

#11 Maintenances Serveurs » [25/11/2020] Kernel-panic, node de "peche" » 2020-11-25 14:31:57

o2switch
Réponses : 0

Bonjour,

Un serveur de "peche" a rencontré une erreur kernel. (kernelpanic)
Un redémarrage d'urgence a été lancé immédiatement.

Durée d'impact : ~10mns.
Le matériel sera vérifié après redémarrage, mais aucun signe ne laisse penser à une défaillance autre que logicielle.

Cordialement
Equipe Technique.

#12 Maintenances Serveurs » [25/11/2020] Redémarrage requis sur deux nodes, barracuda/tropical » 2020-11-25 14:30:22

o2switch
Réponses : 0

Bonjour,

Afin d'appliquer une mise à jour urgente, nous devons relancer deux nodes sur tropical et barracuda.
L'opération sera réalisée à 14h30 sur critère prioritaire.

Durée : ~15mns.

Cordialement,
Merci de votre compréhension.

#13 Maintenances Serveurs » [13/11/2020] Maintenance "poivre" » 2020-11-13 08:38:14

o2switch
Réponses : 0

Bonjour,

Suite à des problématiques sur la partie SQL de "poivre" nous devons réaliser une maintenance curative et définitive.
Cette maintenance sera réalisée entre 8h30 et 9h. Et devrait durer quelques minutes.

Cordialement
Service Technique

#14 Maintenances Serveurs » [11/11/2020] Incident "felix" » 2020-11-11 11:46:11

o2switch
Réponses : 0

Bonjour,

Un serveur du node felix a rencontré un incident sur un support de stockage lié au système.
Le support concerné (qui était neuf) a été changé, et les données systèmes concernées restaurées.

Cordialement
Equipe Technique

#15 Maintenances Serveurs » [04/11/2020] Action nécessaire sur "camembert" » 2020-11-04 08:27:53

o2switch
Réponses : 0

Bonjour,

Nous devons intervenir physiquement sur le node camembert.
L'opération devrait durer ~15mns, et sera réalisée peu avant 9h ce matin.

Equipe Technique

#16 Maintenances Serveurs » [21/10/2020] Incident "switchy" » 2020-10-21 05:40:57

o2switch
Réponses : 0

Bonjour,

Le node switchy a rencontré un incident sur un volume RAID. Ce dernier ne répondait plus et n'arrivait pas à être reconstruit automatiquement/ à chaud.
Nous avons été contraint de refaire le volume à neuf, puis de restaurer manuellement à partir d'un rescue du volume RAID défaillant.
Pas de perte de données. Pas de nécessité de restaurer un backup côté o2switch ou hébergé.

Nos monitorings ont détecté l'incident à partir de 0hH30 environ. Nous avons finalisé l'opération vers 6h du matin.
(temps incompressible d'opération technique)

Merci de votre confiance,
Equipe Technique

#17 Maintenances Serveurs » [21/10/2020] Incident "olium" » 2020-10-21 05:37:35

o2switch
Réponses : 0

Bonjour,

Nous constatons un incident sur le node "olium". Investigations en cours.

Cordialement
Service Technique

#18 Maintenances Serveurs » [15/08/2020] Incident "gateau" » 2020-08-15 20:12:00

o2switch
Réponses : 0

Bonjour,

Notre équipe a été alerté/a constaté par monitoring le reboot intempestif d'un node de "gateau".
Nous avons investigué l'origine de ces reboots, et aucune partie "software" ne peut en être responsable : le kernel part alors en panic sans raison, sans charge, ni élément complémentaire d'investigation.

Il apparait qu'un RAID SSD a posé problème, sur les partitions de boot et système.
Après tentative de réparation sans effet, et dans la mesure où une réparation va prendre plus de temps qu'un remplacement : nous changeons totalement le node.

Les données sont naturellement intactes, et nous recopions le RAID sur des mediums neufs.
Le serveur devrait remonter dès que possible, et dès opération physique, à durée incompressible, sera terminée.

Cordialement
Equipe Technique

#19 Maintenances Serveurs » [14/08/2020] Incident matériel "klon" » 2020-08-14 07:39:19

o2switch
Réponses : 0

Bonjour,

Un node de "klon" rencontre actuellement un incident matériel.
Une recopie d'un volume RAID est en cours : le délai de rétablissement dépend alors de la recopie physique. La recopie ne pouvait, dans le cas présent, être réalisée à chaud.

Début : 8h15.

Cordialement
Equipe technique

#20 Maintenances Serveurs » [24/06/2020] Opérations "ronron" "green" "madrid" » 2020-06-24 07:01:48

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser une opération technique d'urgence sur ces trois nodes.
Cette dernière va générer un reboot physique de certains serveurs de "ronron", "green" et "madrid". Le tout va revenir seul.
L'opération sera réalisée vers 7h30 du matin.

Cordialement
Equipe Technique

#21 Maintenances Serveurs » [02/05/2020] Incident noimine » 2020-05-02 18:24:43

o2switch
Réponses : 0

Bonjour,

Le node noimine rencontre actuellement une perte d'accès réseau.
Le serveur fonctionne mais son interface réseau physique ne répond plus. Pas d'opération anormale.

Contexte : Sur certains serveurs nous rajoutons une carte d'extension SFP/SFP+ pour passer en switch fibre/port 10gbps, et non RJ45 classique.

Problème : La carte concernée ne répond plus. Ce jour est la 2eme fois constatée. La 1ere fois un changement de driver kernel a été réalisé. Nous devons alors relancer physiquement le node.

L'opération est en cours. Si le cas se reproduit, la carte SFP+ sera changée de manière planifiée.

Cordialement
Equipe Technique

#22 Re : Maintenances Serveurs » [Début 2020] Mises à jour matérielles d'anciens clusters » 2020-04-19 17:23:49

Bonjour,

Nous avons terminé 90% des migrations.
Les 10% que nous devons finaliser seront traités la semaine prochaine. Le tout s'est déroulé, dans la généralité, sans encombre.

Néanmoins, l'hôte wine, migré ce matin, rencontre un incident : il redémarre aléatoirement.
Nous avons pu localiser un incident matériel (problème carte mère/mémoire du chassis serveur, le tout étant pourtant neuf)
Nous remplaçons. Un changement mémoire préalable n'a pas solutionné le cas.

Cordialement
Equipe Technique

#23 Re : Maintenances Serveurs » [Début 2020] Mises à jour matérielles d'anciens clusters » 2020-04-10 19:22:54

Bonjour,

Compte tenu de la crise sanitaire du Covid-19, les besoins de nos hébergés changent et les serveurs ne peuvent avoir une coupure, même minime, en semaine.
Les migrations planifiées sont complétées à 70% à ce jour.

Nous avons décidé de prendre des périodes fixes afin de procéder aux serveurs restants.
Les migrations seront réalisées les Samedi et Dimanche à partir de 4h du matin. Ceci pendant, normalement, deux week ends consécutifs.

Ainsi, nous espérons rendre invisible ces opérations pour nos hébergés.

Cordialement
Equipe Technique.

#24 Maintenances Serveurs » [07/04/2020] Incident "pasta" » 2020-04-07 22:32:30

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré un incident majeur sur le node pasta.
L'ensemble a été restauré. et les services reviennent progressivement sans perte de donnée.
Le serveur impacté reste en salle technique/observation, et sera re-déplacé en baie ultérieurement, après que tout soit confirmé fonctionnel.

Type d'incident : défaillance d'une des deux alimentations d'un serveur physique.
Survoltage sur le matériel derrière l'alimentation qui n'a pas coupé, remplacement matériel total nécessaire.

Cordialement
Equipe Technique.

#25 Maintenances Serveurs » [28/03/2020] Incident "klon" » 2020-03-28 22:22:46

o2switch
Réponses : 0

Bonjour,

Un serveur physique a rencontré un kernel panic nécessitant un redémarrage manuel.
Après investigations, des erreurs IO sur un disque en RAID ont généré le blocage.
Le serveur a été redémarré, le disque changé. Aucune perte de donnée.

Nombre de comptes d'hébergement impactés : ~70.
Début : 21h50
Fin d'incident : 22h15

Bon weekend,
Equipe Technique.