Annonce

#1 Maintenances Serveurs » [16/05/2022] Travaux infrastructure archivages » 2022-05-16 22:46:39

o2switch
Réponses : 0

Bonjour,

Nous réalisons cette nuit une opération de maintenance planifiée sur les serveurs destinés aux stockages externes des archives JetBackup.
L'opération devrait durer une partie de la nuit, voir déborder, pour certains serveurs, sur la journée de demain.
En l'attente, l'accès des archivages notés "Distant" sur JetBackup peut être dégradé. Le retour reviendra seul à la normale.

Merci de votre compréhension
Service Technique

#2 Maintenances Serveurs » [13/05/2022] Remplacement physique "cow" » 2022-05-13 13:15:10

o2switch
Réponses : 0

Bonjour,

Nous avons constaté à plusieurs reprises des incidents sur un serveur physique "cow".
Depuis ~ 15jrs, le serveur s'arrête et l'iLO interne, qui n'est pas défectueux (serveur HP) bloque en erreur fatal : écran rouge, mais aucune erreur cohérente ou permettant d'identifier l'origine du cas.

De fait, des plantages "bruts" matériels ont été constatés à 5 reprises (à intervalle tous les 2/3jrs).
A chaque fois, des opérations curatives, à l'aveugle, sont réalisés :
- Changement des CPU
- Changement de la ram
- Changement du backplane SAS
- Changement du contrôleur raid.

Ce jour, ~10h30, l'incident s'est à nouveau produit.

Le cas ne pouvant pas persister et n'étant pas conforme avec nos exigences de service, nous avons remplacé matériellement l'intégralité du serveur physique. Dont les disques système, recopiés.

Le service est de nouveau opérationnel vers ~14h.
Nous nous excusons pour la gène générée.

Cordialement
Equipe o2switch

#3 Maintenances Serveurs » [16/02/2022] Incident SQL "berlin" » 2022-02-16 13:49:39

o2switch
Réponses : 0

Bonjour,

Le serveur SQL d'un node de "berlin" a rencontré un incident grave et relatif à des corruptions de tables InnoDB.
Malheureusement, il est impossible de réparer la corruption, la seule solution étant une restauration de données.

Nous avons donc lancé, à partir de backups réalisés de notre côté :
- Le remplacement des disques de stockage d'SQL.
- La restauration des bases de données en date du 16/02/2022 nuit/matin.

Le processus est en cours. Son délai dépend du volume de données à restaurer et vous devriez progressivement constater le retour en ligne de chaque base concernée.  Le retour est prévu de maintenant à dans l'après midi.

Cordialement
Service Technique

#4 Maintenances Serveurs » [05/02/2022] Incident "tacos" » 2022-02-05 10:26:58

o2switch
Réponses : 0

Bonjour,

Nous rencontrons un incident matériel sur un node SQL de "tacos"
La réparation est en cours.

Cordialement
Service Technique

#5 Maintenances Générales » [04/02/2022] Incident switch distribution » 2022-02-04 11:22:47

o2switch
Réponses : 0

Bonjour

Un switch de distribution a été remplacé en salle suite à incident.
Les services sont revenus en ligne après ~10/15mns.

Type d'incident : shut du switch, pas de motif visible.
Le switch a été totalement remplacé pour aller au plus vite, investigations en cours après incident.

Cordialement
Service Technique

#6 Maintenances Serveurs » [28/01/2022] Opérations node "guepe" » 2022-01-28 11:27:50

o2switch
Réponses : 0

Bonjour,

Nous constatons des comportements anormaux sur un node de guepe.
De fait, nous devons réaliser des changements matériels préventifs afin d'éliminer toute source de gène dépendante de nos services.
Les opérations seront réalisées ce jour, entre 11h et 16h. sous critères d'urgence.

Une à deux coupures de service de ~10/15mns peuvent êtres rencontrées.
Avec nos excuses pour la gène générée.

Cordialement
Service technique

#7 Maintenances Serveurs » [31/12/2021] Redémarrages volontaires / mises à jour Kernel » 2021-12-31 11:08:13

o2switch
Réponses : 0

Bonjour,

Un grand nombre de serveurs physiques disposent d'un uptime supérieur à 500 jours.
Nous appliquons régulièrement, à chaud, les mises à jour kernel & de securité par l'intermédiaire de patchs. Ceci, afin de ne pas devoir redémarrer les serveurs régulièrement et lors de la sortie d'un nouveau kernel.

Cependant, il est bon d'appliquer de nouveaux kernel de manière native.
Aussi, nous profitons du 31/12, jour relativement calme en visiteurs, pour réaliser un redémarrage vers un kernel nativement à jour.
Ceci permet, proactivement, d'éviter des incidents liés à l'accumulation de patchs sur des kernel Linux anciens.

Certains serveurs sont alors relancés. Opération qui prend ~5 à 10mns.
Aucun impact visible avant/après opération pour les utilisateurs des hébergements.

Cordialement
Service Technique.

#8 Maintenances Serveurs » [27/12/2021] Remplacement "jambon" » 2021-12-27 17:45:50

o2switch
Réponses : 0

Bonjour,

Nous allons procéder ce jour au remplacement complet et préventif d'un node de "jambon".
En cause, des erreurs sur le backplane SAS. Pertes de disques aléatoires.

[534059.553192] hpsa 0000:02:00.0: waiting 2 secs for device to become ready.
[534060.115457] hpsa 0000:02:00.0: SCSI status: LUN:0000000000801001 CDB:12010000040000000000000000000000
[534060.115461] hpsa 0000:02:00.0: SCSI Status = 02, Sense key = 0x05, ASC = 0x25, ASCQ = 0x00
[534060.118370] hpsa 0000:02:00.0: Acknowledging event: 0x80000012 (HP SSD Smart Path configuration change)
[534061.600347] hpsa 0000:02:00.0: waiting 4 secs for device to become ready.
[534065.632231] hpsa 0000:02:00.0: waiting 8 secs for device to become ready.
[534073.824090] hpsa 0000:02:00.0: waiting 16 secs for device to become ready.
[534075.380858] hpsa 0000:02:00.0: SCSI status: LUN:0000000000801001 CDB:12010000040000000000000000000000
[534075.380861] hpsa 0000:02:00.0: SCSI Status = 02, Sense key = 0x05, ASC = 0x25, ASCQ = 0x00
[534075.383360] hpsa 0000:02:00.0: Acknowledging event: 0x80000012 (HP SSD Smart Path configuration change)

L'opération sera réalisée avec le minimum de délai possible.
Elle ne peut être planifiée ni différée afin d'éviter un incident technique.

Cordialement
Service Technique

#9 Maintenances Serveurs » [18/11/21] Incident "palmier" » 2021-11-18 01:33:24

o2switch
Réponses : 0

Bonjour,

Le node "palmier" a rencontré un incident sur un volume NVMe destiné à MariaDB/sql.
Le volume a été remplacé et les données correctement dupliquées.
Aucune perte de donnée n'est naturellement à prévoir.

Cordialement
Service Technique

#10 Maintenances Générales » [11/11/2021] Incident wave Clermont-Ferrand <> Paris Saint Denis » 2021-11-11 11:23:28

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré un incident sur une wave Orange 100G Clermont-Ferrand <> Paris Saint Denis.
L'incident n'a pas été visible des hébergés, l'ensemble de notre réseau étant multi-redondé et multi-liens.
La situation est rétablie.

Cordialement
Service Technique

#11 Maintenances Serveurs » [06/11/2021] Incident "norse" » 2021-11-06 21:45:11

o2switch
Réponses : 0

Bonjour,

Le node "norse" a rencontré un incident matériel.
Un riser PCI/E (carte où sont raccordés les volumes NVMe) est tombé hors service. Nous avons procédé au remplacement matériel complet du serveur concerné.

Début d'incident : 20h40
Fin d'incident :  ~21h40

Cordialement,
Service Technique

#12 Maintenances Serveurs » [15/10/2021] Incident node "chaton" » 2021-10-15 16:06:22

o2switch
Réponses : 0

Bonjour,

Le node concerné en sujet rencontre un incident.
Nous travaillons actuellement au rétablissement.

Cordialement
Service Technique

#13 Maintenances Serveurs » [07/09/2021] Incident Aligot » 2021-09-07 10:02:23

o2switch
Réponses : 0

Bonjour,

Des problématiques ont été remonté à nos services dans le weekend concernant un node d'aligot.

Il était alors question d'une augmentation notable de l'IOWAIT sur un système sans raison particulière.
Le problème était alors présent par moment, sans explication technique. Généralement, ce type de problème peut avoir pour origine une défaillance du contrôleur disque -en l'absence- de consommation CPU.

De fait, ce Mardi 07/09/21 nous avons réalisé une maintenance d'urgence visant à remplacer totalement, physiquement, le serveur physique concerné.
L'opération a été réalisé en critère d'urgence afin d'éviter tout futur incident. Sa durée n'aurait pas dù excéder les 15mns.

Cependant, au remplacement le volume système a été détruit et contenait énormément d'erreurs. Les causes ne sont pas définies mais nous pensons à la piste du controlleur défaillant. Ceci conforte alors la nécessité d'une maintenance urgente non planifiée au préalable.

Nous avons donc été dans l'obligation de changer intégralement le volume concerné et de restaurer les données relatives.
Ceci a provoqué un délai imprévu, physique, le temps de restauration.

Aucune perte de données n'est à prévoir.
Le service redevient optimal.

Cordialement
Service Technique

#14 Maintenances Serveurs » [25/08/2021] Mises à niveau depuis CentOS6 - Fin » 2021-08-23 18:19:59

o2switch
Réponses : 0

Bonjour,

Ceci est un rappel d'opération de maintenance.
Une notification préalable a déjà été envoyé par mail en date du 12/07/2021.

Nous devons transformer certains nodes sous système CentOS6 vers une nouvelle version.
Cette opération permettra de fonctionner sous une version à jourdu système, d'améliorer et de pouvoir fournir de nouveaux services.

Les nodes concernés sont sur les hôtes :

madrid, oranger, piou,
trigone, phobos, pam,
kilo, fraise, dolphin

L'opération est planifiée pour le Mercredi 25 Août 2021.
La durée totale est d'environ 15 à 20mns par node.
La maintenance est un remplacement du volume primaire de chaque node par un neuf contenant le nouveau système.

Dans la foulée, les CPU seront remplacés si nécessaires (évolution); et de la ram rajoutée.

Cordialement
Service Technique

#15 Maintenances Serveurs » [23/08/2021] Mises à niveau depuis CentOS6 » 2021-08-23 13:48:46

o2switch
Réponses : 0

Bonjour,

Ceci est un rappel d'opération de maintenance.
Une notification préalable a déjà été envoyé par mail en date du 12/07/2021.

Nous devons transformer certains nodes sous système CentOS6 vers une nouvelle version.
Cette opération permettra de fonctionner sous une version à jourdu système, d'améliorer et de pouvoir fournir de nouveaux services.

Les nodes concernés sont sur les hôtes :

bender, flexo
fox,

galax
jambon, kewek, kilo

L'opération est planifiée pour le Lundi 23 Août 2021.
La durée totale est d'environ 15 à 20mns par node.
La maintenance est un remplacement du volume primaire de chaque node par un neuf contenant le nouveau système.

Dans la foulée, les CPU seront remplacés si nécessaires (évolution); et de la ram rajoutée.

Cordialement
Service Technique

#16 Maintenances Serveurs » [20/08/2021] Mises à niveau depuis CentOS6 » 2021-08-20 13:40:48

o2switch
Réponses : 0

Bonjour,

Ceci est un rappel d'opération de maintenance.
Une notification préalable a déjà été envoyé par mail en date du 12/07/2021.

Nous devons transformer certains nodes sous système CentOS6 vers une nouvelle version.
Cette opération permettra de fonctionner sous une version à jourdu système, d'améliorer et de pouvoir fournir de nouveaux services.

Les nodes concernés sont sur les hôtes :

abricot, banana
clean, compote
geneve, uranus
ronron, bash
camembert, ice
toaster, titan
saturne

L'opération est planifiée pour le Vendredi 20 Août 2021.
La durée totale est d'environ 15 à 20mns par node.
La maintenance est un remplacement du volume primaire de chaque node par un neuf contenant le nouveau système.

Dans la foulée, les CPU seront remplacés si nécessaires (évolution); et de la ram rajoutée.

Cordialement
Service Technique

#17 Re : Maintenances Serveurs » [27/07/2021] Incident "melon" » 2021-07-28 13:36:27

Le serveur a été redéplacé en salle de production, et ne présente plus de gène.

Cordialement
Service Technique.

#18 Maintenances Serveurs » [27/07/2021] Incident "melon" » 2021-07-27 19:20:42

o2switch
Réponses : 1

Bonjour,

Nous avons rencontré un incident sur un node de "melon".
Le node concerné contenait ~24 disques. Tous en état SMART OK et ne présentant aucune erreur visible.

Sur ces 24 disques, un des disques présentait une défaillance "invisible" et ralentissait l'ensemble des volumes RAID en place.
Nous avons été contraint de tester un à un les disques à la recherche du responsable.
Malheureusement, cette opération a pris un certain temps, incompressible.

Le disque concerné a été retiré pour destruction, et remplacé
Le serveur va revenir optimal rapidement.

Equipe Technique

#19 Maintenances Serveurs » [21/07/2021] Incident "tomate" » 2021-07-21 09:05:04

o2switch
Réponses : 0

Bonjour,

Nous avons rencontré un incident le 21/07/2021 sur le node "tomate"

Date de début d'incident : 7:46 GMT+1
Date de fin d'incident : 8:45 GMT+1

Un serveur physique redémarrait en boucle et affichait sans discontinuer son logo constructeur.
Il s'agissait alors sans hésitation d'un problème matériel. L'équipe a alors été immédiatement lancée en action curative.

La mémoire a été changé, puis le chassis complet : persistance du cas.
Le problème venait d'un des CPU qui était en défaut.

De fait nous avons changé l'intégralité du serveur concerné, des composants, à l'exception du controleur RAID et des disques.
Le node a été lancé sans erreur après opération de reconfiguration.

Le tout est à présent optimal.

Cordialement
Equipe Technique

#20 Re : Maintenances Serveurs » [08/06/21] Incident node "girafe" » 2021-06-09 13:26:51

Bonjour,

Le trafic vers le serveur ne permettait pas, hier, de réaliser sans impact l'opération de changement.
Le changement physique aura lieu ce jour, 9 Juin, ~14h30/14h45.

Cordialement
Service Technique

#21 Maintenances Serveurs » [08/06/21] Incident node "girafe" » 2021-06-08 15:51:28

o2switch
Réponses : 1

Bonjour,

Nous constatons un incident sur un node physique de "girafe".
L'incident est présenté comme une instabilité kernel : le serveur tombe en kernel panic, et redémarre par un mécanisme automatisé.

Nous investiguons l'origine du cas.
Le cas s'est produit ce jour, ~ 16h20. GMT+1
Il s'est aussi produit hier, de manière similaire, ~23h GMT+1

Si nous ne trouvons pas l'origine précise du kernel panic seront réalisés :
- Un changement matériel complet.
- L'établissement d'un système Linux à neuf, et la restauration de ses configurations.

L'opération sera alors réalisée ce jour, en critère d'urgence et après rétablissement initial.
Durée d'impact approximative de la maintenance curative : ~20/30mns.

Cordialement
Equipe Technique

#22 Re : Maintenances Serveurs » [02/06/21] Incident node "citrus" » 2021-06-04 18:51:10

Bonjour,

Le problème s'est de nouveau manifesté ce jour, ~9h, 04/06/21 de manière différente :
- Ecran "rouge" au boot Linux, erreur mémoire kernel sans raison apparente (la machine étant 100% neuve en dehors de certains disques SSD)
- Erreur de chargement grub aléatoire.
- Disparition aléatoire des disques système..

De fait nous avons été contraint de lancer en urgence des opérations lourdes afin de corriger définitivement le problème :
- Mise en place d'un système Linux à neuf.
- Récupération, restauration de toutes les configurations à partir d'un backup.
- Reconstruction des raids secondaires.
Le délai de ses opérations dépendant alors directement des délais de recopie/restauration.
Aucune perte de donnée n'est à prévoir, et les données sont à jour.

L'incident a été considéré comme clos vers 13h30.
Le serveur a été déplacé en salle de production vers 18h.

Cordialement
Service Technique

#23 Maintenances Serveurs » [02/06/21] Incident node "citrus" » 2021-06-02 02:08:12

o2switch
Réponses : 1

Bonjour,

Un serveur physique de "citrus" a rencontré des perturbations cette nuit ~1h00.
Nous suspectons une erreur matérielle.

- Le serveur est changé physiquement
- Les volumes systèmes sont clonés sur une grappe RAID neuve, sur des SSD neufs.

Le serveur reste en banc de tests pour la nuit.
L'ensemble des services est à nouveau fonctionnel.
Durée d'impact : 30mns à 60mns.

Le serveur concerné sera re-racké en salle le 02/06/21 en l'absence de nouvel incident.

Merci de votre fidélité et compréhension.
Service Technique,

#24 Maintenances Serveurs » [27/04/2021] Incident node "citrus" » 2021-04-27 10:43:09

o2switch
Réponses : 0

Bonjour,

Nous constatons un incident sur le node "citrus".
Certains applicatifs PHP ne fonctionnent plus et retournent une erreur 508.  Une erreur kernel est suspectée.
Un reboot physique a été amorcé et nous travaillons sur l'incident et son origine.

Le tout devrait rapidement devenir actif.
Heure d'incident (France) : 11h15.
Fin d'incident espéré : ~11h35 à 45.

Service Technique

#25 Maintenances Serveurs » [24/04/2020] Incident sur un serveur du node "salade" » 2021-04-24 01:15:18

o2switch
Réponses : 0

Bonjour,

Un serveur physique rencontre un incident : perte du volume principal système sans raison.
Erreur d'attente sur le contrôleur. Le disque a été testé ok. -200hrs de fonctionnement.

Pistes possibles :
- Problème de kernel : kernel remplacé
- Problème de ram : changement complet réalisé
- Problème de cable au contrôleur : changement réalisé

En cas de réitération d'un incident le serveur complet sera changé,
Le serveur physique concerné reste en banc de test jusqu'à Dimanche/Lundi. et fonctionne actuellement en état normal.

Cordialement
Service Technique