Annonce

#1 Maintenances Serveurs » [15/10/2021] Incident node "chaton" » 2021-10-15 16:06:22

o2switch
Réponses : 0

Bonjour,

Le node concerné en sujet rencontre un incident.
Nous travaillons actuellement au rétablissement.

Cordialement
Service Technique

#2 Maintenances Serveurs » [07/09/2021] Incident Aligot » 2021-09-07 10:02:23

o2switch
Réponses : 0

Bonjour,

Des problématiques ont été remonté à nos services dans le weekend concernant un node d'aligot.

Il était alors question d'une augmentation notable de l'IOWAIT sur un système sans raison particulière.
Le problème était alors présent par moment, sans explication technique. Généralement, ce type de problème peut avoir pour origine une défaillance du contrôleur disque -en l'absence- de consommation CPU.

De fait, ce Mardi 07/09/21 nous avons réalisé une maintenance d'urgence visant à remplacer totalement, physiquement, le serveur physique concerné.
L'opération a été réalisé en critère d'urgence afin d'éviter tout futur incident. Sa durée n'aurait pas dù excéder les 15mns.

Cependant, au remplacement le volume système a été détruit et contenait énormément d'erreurs. Les causes ne sont pas définies mais nous pensons à la piste du controlleur défaillant. Ceci conforte alors la nécessité d'une maintenance urgente non planifiée au préalable.

Nous avons donc été dans l'obligation de changer intégralement le volume concerné et de restaurer les données relatives.
Ceci a provoqué un délai imprévu, physique, le temps de restauration.

Aucune perte de données n'est à prévoir.
Le service redevient optimal.

Cordialement
Service Technique

#3 Maintenances Serveurs » [25/08/2021] Mises à niveau depuis CentOS6 - Fin » 2021-08-23 18:19:59

o2switch
Réponses : 0

Bonjour,

Ceci est un rappel d'opération de maintenance.
Une notification préalable a déjà été envoyé par mail en date du 12/07/2021.

Nous devons transformer certains nodes sous système CentOS6 vers une nouvelle version.
Cette opération permettra de fonctionner sous une version à jourdu système, d'améliorer et de pouvoir fournir de nouveaux services.

Les nodes concernés sont sur les hôtes :

madrid, oranger, piou,
trigone, phobos, pam,
kilo, fraise, dolphin

L'opération est planifiée pour le Mercredi 25 Août 2021.
La durée totale est d'environ 15 à 20mns par node.
La maintenance est un remplacement du volume primaire de chaque node par un neuf contenant le nouveau système.

Dans la foulée, les CPU seront remplacés si nécessaires (évolution); et de la ram rajoutée.

Cordialement
Service Technique

#4 Maintenances Serveurs » [23/08/2021] Mises à niveau depuis CentOS6 » 2021-08-23 13:48:46

o2switch
Réponses : 0

Bonjour,

Ceci est un rappel d'opération de maintenance.
Une notification préalable a déjà été envoyé par mail en date du 12/07/2021.

Nous devons transformer certains nodes sous système CentOS6 vers une nouvelle version.
Cette opération permettra de fonctionner sous une version à jourdu système, d'améliorer et de pouvoir fournir de nouveaux services.

Les nodes concernés sont sur les hôtes :

bender, flexo
fox,

galax
jambon, kewek, kilo

L'opération est planifiée pour le Lundi 23 Août 2021.
La durée totale est d'environ 15 à 20mns par node.
La maintenance est un remplacement du volume primaire de chaque node par un neuf contenant le nouveau système.

Dans la foulée, les CPU seront remplacés si nécessaires (évolution); et de la ram rajoutée.

Cordialement
Service Technique

#5 Maintenances Serveurs » [20/08/2021] Mises à niveau depuis CentOS6 » 2021-08-20 13:40:48

o2switch
Réponses : 0

Bonjour,

Ceci est un rappel d'opération de maintenance.
Une notification préalable a déjà été envoyé par mail en date du 12/07/2021.

Nous devons transformer certains nodes sous système CentOS6 vers une nouvelle version.
Cette opération permettra de fonctionner sous une version à jourdu système, d'améliorer et de pouvoir fournir de nouveaux services.

Les nodes concernés sont sur les hôtes :

abricot, banana
clean, compote
geneve, uranus
ronron, bash
camembert, ice
toaster, titan
saturne

L'opération est planifiée pour le Vendredi 20 Août 2021.
La durée totale est d'environ 15 à 20mns par node.
La maintenance est un remplacement du volume primaire de chaque node par un neuf contenant le nouveau système.

Dans la foulée, les CPU seront remplacés si nécessaires (évolution); et de la ram rajoutée.

Cordialement
Service Technique

#6 Re : Maintenances Serveurs » [27/07/2021] Incident "melon" » 2021-07-28 13:36:27

Le serveur a été redéplacé en salle de production, et ne présente plus de gène.

Cordialement
Service Technique.

#7 Maintenances Serveurs » [27/07/2021] Incident "melon" » 2021-07-27 19:20:42

o2switch
Réponses : 1

Bonjour,

Nous avons rencontré un incident sur un node de "melon".
Le node concerné contenait ~24 disques. Tous en état SMART OK et ne présentant aucune erreur visible.

Sur ces 24 disques, un des disques présentait une défaillance "invisible" et ralentissait l'ensemble des volumes RAID en place.
Nous avons été contraint de tester un à un les disques à la recherche du responsable.
Malheureusement, cette opération a pris un certain temps, incompressible.

Le disque concerné a été retiré pour destruction, et remplacé
Le serveur va revenir optimal rapidement.

Equipe Technique

#8 Maintenances Serveurs » [21/07/2021] Incident "tomate" » 2021-07-21 09:05:04

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré un incident le 21/07/2021 sur le node "tomate"

Date de début d'incident : 7:46 GMT+1
Date de fin d'incident : 8:45 GMT+1

Un serveur physique redémarrait en boucle et affichait sans discontinuer son logo constructeur.
Il s'agissait alors sans hésitation d'un problème matériel. L'équipe a alors été immédiatement lancée en action curative.

La mémoire a été changé, puis le chassis complet : persistance du cas.
Le problème venait d'un des CPU qui était en défaut.

De fait nous avons changé l'intégralité du serveur concerné, des composants, à l'exception du controleur RAID et des disques.
Le node a été lancé sans erreur après opération de reconfiguration.

Le tout est à présent optimal.

Cordialement
Equipe Technique

#9 Re : Maintenances Serveurs » [08/06/21] Incident node "girafe" » 2021-06-09 13:26:51

Bonjour,

Le trafic vers le serveur ne permettait pas, hier, de réaliser sans impact l'opération de changement.
Le changement physique aura lieu ce jour, 9 Juin, ~14h30/14h45.

Cordialement
Service Technique

#10 Maintenances Serveurs » [08/06/21] Incident node "girafe" » 2021-06-08 15:51:28

o2switch
Réponses : 1

Bonjour,

Nous constatons un incident sur un node physique de "girafe".
L'incident est présenté comme une instabilité kernel : le serveur tombe en kernel panic, et redémarre par un mécanisme automatisé.

Nous investiguons l'origine du cas.
Le cas s'est produit ce jour, ~ 16h20. GMT+1
Il s'est aussi produit hier, de manière similaire, ~23h GMT+1

Si nous ne trouvons pas l'origine précise du kernel panic seront réalisés :
- Un changement matériel complet.
- L'établissement d'un système Linux à neuf, et la restauration de ses configurations.

L'opération sera alors réalisée ce jour, en critère d'urgence et après rétablissement initial.
Durée d'impact approximative de la maintenance curative : ~20/30mns.

Cordialement
Equipe Technique

#11 Re : Maintenances Serveurs » [02/06/21] Incident node "citrus" » 2021-06-04 18:51:10

Bonjour,

Le problème s'est de nouveau manifesté ce jour, ~9h, 04/06/21 de manière différente :
- Ecran "rouge" au boot Linux, erreur mémoire kernel sans raison apparente (la machine étant 100% neuve en dehors de certains disques SSD)
- Erreur de chargement grub aléatoire.
- Disparition aléatoire des disques système..

De fait nous avons été contraint de lancer en urgence des opérations lourdes afin de corriger définitivement le problème :
- Mise en place d'un système Linux à neuf.
- Récupération, restauration de toutes les configurations à partir d'un backup.
- Reconstruction des raids secondaires.
Le délai de ses opérations dépendant alors directement des délais de recopie/restauration.
Aucune perte de donnée n'est à prévoir, et les données sont à jour.

L'incident a été considéré comme clos vers 13h30.
Le serveur a été déplacé en salle de production vers 18h.

Cordialement
Service Technique

#12 Maintenances Serveurs » [02/06/21] Incident node "citrus" » 2021-06-02 02:08:12

o2switch
Réponses : 1

Bonjour,

Un serveur physique de "citrus" a rencontré des perturbations cette nuit ~1h00.
Nous suspectons une erreur matérielle.

- Le serveur est changé physiquement
- Les volumes systèmes sont clonés sur une grappe RAID neuve, sur des SSD neufs.

Le serveur reste en banc de tests pour la nuit.
L'ensemble des services est à nouveau fonctionnel.
Durée d'impact : 30mns à 60mns.

Le serveur concerné sera re-racké en salle le 02/06/21 en l'absence de nouvel incident.

Merci de votre fidélité et compréhension.
Service Technique,

#13 Maintenances Serveurs » [27/04/2021] Incident node "citrus" » 2021-04-27 10:43:09

o2switch
Réponses : 0

Bonjour,

Nous constatons un incident sur le node "citrus".
Certains applicatifs PHP ne fonctionnent plus et retournent une erreur 508.  Une erreur kernel est suspectée.
Un reboot physique a été amorcé et nous travaillons sur l'incident et son origine.

Le tout devrait rapidement devenir actif.
Heure d'incident (France) : 11h15.
Fin d'incident espéré : ~11h35 à 45.

Service Technique

#14 Maintenances Serveurs » [24/04/2020] Incident sur un serveur du node "salade" » 2021-04-24 01:15:18

o2switch
Réponses : 0

Bonjour,

Un serveur physique rencontre un incident : perte du volume principal système sans raison.
Erreur d'attente sur le contrôleur. Le disque a été testé ok. -200hrs de fonctionnement.

Pistes possibles :
- Problème de kernel : kernel remplacé
- Problème de ram : changement complet réalisé
- Problème de cable au contrôleur : changement réalisé

En cas de réitération d'un incident le serveur complet sera changé,
Le serveur physique concerné reste en banc de test jusqu'à Dimanche/Lundi. et fonctionne actuellement en état normal.

Cordialement
Service Technique

#15 Maintenances Serveurs » [29/03/2021] Incident Matrix » 2021-03-29 14:32:36

o2switch
Réponses : 0

Bonjour,

Nous traitons un incident sur un serveur de la plateforme matrix.

Cordialement
Service Technique

#16 Maintenances Serveurs » [03/03/2021] Maintenance service bêta NextCloud » 2021-03-02 19:46:51

o2switch
Réponses : 0

Bonjour,

Nous devons réaliser une opération de maintenance sur le service en bếta d'instances NextCloud.
Cette maintenance peut provoquer des perturbations.
Elle sera réalisée le 03 Mars 2021.

Par la suite, le service sortira de son statut de bêta rapidement.

Cordialement
Service Technique.

#17 Maintenances Serveurs » [12/02/2021] Incident node "chevre" » 2021-02-12 18:51:36

o2switch
Réponses : 0

Bonjour,

Nous constatons un incident sur un volume d'un serveur de la plateforme "chèvre"
Le remplacement du volume est en cours.

Cordialement
Service Technique

#18 Maintenances Serveurs » [12/02/2021] Evolution générale plateforme ipXtender/LSCache/Varnish » 2021-02-12 18:06:12

o2switch
Réponses : 0

Bonjour,

Nous remplaçons la baie en charge des services listés en sujet.
Le but est de réaliser une évolution globale des services concernés.

L'ensemble de la partie réseau est revue avec une tête Arista et des ports 100Gbps frontaux.

L'opération est préparée, et nécessitera une simple bascule des adresses IP sur les nouvelles interfaces.
~1 à 2mns de perturbations à prévoir.

Réalisation sur la tranche 18h>18h30.

Cordialement
Service Technique

#19 Maintenances Serveurs » [27/01/2020] Incident "rixo" » 2021-01-27 19:21:28

o2switch
Réponses : 0

Bonjour,

Notre équipe a constaté des lenteurs par périodes courtes, depuis quelques heures, sur un serveur de l'hôte rixo.
Après analyse, il était à constater des blocages IO, où la lecture des blocks devenait impossible sur un volume RAID.

Nous avons alors testé :
- Le remplacement de chacun des disques, successivement du volume RAID concerné.
Pas de changement.
- Le remplacement du controleur RAID matériel et des cables SAS.
Pas de changement.

En conséquence nous avons changé complètement le serveur impacté.
Les disques SAS et NVMe sont reconnus sans erreur, et le fonctionnement parait optimal.

Le nouveau serveur physique, neuf, reste en observation dans nos salles techniques.
Nous suspectons donc, en origine, le backplane du serveur 2U concerné d'avoir été responsable des erreurs.

Le nouveau serveur sera racké dans la journée du Jeudi 28 Janvier à l'emplacement baie initial.
Date de secours de cette opération : 29 Janvier. Délai ~10mns.
Le serveur défaillant sera détruit.

Cordialement
Service Technique

#20 Maintenances Serveurs » [05/01/2021] Perturbations "santa" » 2021-01-05 17:35:05

o2switch
Réponses : 0

Bonjour,

Nous constatons des perturbations SQL sur un node de "santa".
Après analyse, deux disques simultanés remontent des erreurs de pre-fail sur le volume RAID/Flash en charge d'SQL.

De fait, à titre préventif, nous allons réaliser un changement d'urgence du volume complet.
Début d'opération ~17h45.
Durée d'impact estimée ~15/20mns.
Jour même.

Cordialement
Service Technique

#21 Re : Maintenances Serveurs » [01/12/2020] Incident "klon" » 2020-12-01 19:13:25

Bonjour,

L'opération n'a pas donné l'effet souhaité.
Nous allons réalisé en deux temps :
- Des opérations logicielles, sur la partie kernel du serveur.
- Si persistance, un changement général de tous les médias de stockage. (aucune perte de données ni opération à réaliser côté hébergés)

Cordialement
Service Technique.

#22 Maintenances Serveurs » [01/12/2020] Incident "klon" » 2020-12-01 04:14:00

o2switch
Réponses : 1

Bonjour,

Nous constatons depuis ~24hrs certaines instabilités sur un node physique de "klon".
De fait, l'équipe de nuit a procédé au changement matériel complet du node concerné.

Cordialement
Service Technique

#23 Maintenances Serveurs » [25/11/2020] Kernel-panic, node de "peche" » 2020-11-25 14:31:57

o2switch
Réponses : 0

Bonjour,

Un serveur de "peche" a rencontré une erreur kernel. (kernelpanic)
Un redémarrage d'urgence a été lancé immédiatement.

Durée d'impact : ~10mns.
Le matériel sera vérifié après redémarrage, mais aucun signe ne laisse penser à une défaillance autre que logicielle.

Cordialement
Equipe Technique.

#24 Maintenances Serveurs » [25/11/2020] Redémarrage requis sur deux nodes, barracuda/tropical » 2020-11-25 14:30:22

o2switch
Réponses : 0

Bonjour,

Afin d'appliquer une mise à jour urgente, nous devons relancer deux nodes sur tropical et barracuda.
L'opération sera réalisée à 14h30 sur critère prioritaire.

Durée : ~15mns.

Cordialement,
Merci de votre compréhension.

#25 Maintenances Serveurs » [13/11/2020] Maintenance "poivre" » 2020-11-13 08:38:14

o2switch
Réponses : 0

Bonjour,

Suite à des problématiques sur la partie SQL de "poivre" nous devons réaliser une maintenance curative et définitive.
Cette maintenance sera réalisée entre 8h30 et 9h. Et devrait durer quelques minutes.

Cordialement
Service Technique