Maintenance et installation de clusters HPC
Maintenance et installation de clusters HPC avec workflow automatisé
Contexte
Mission réalisée dans le cadre de mes activités professionnelles chez Bull, Atos, consistant à assurer la maintenance et l’optimisation de trois supercalculateurs : Bullx DLC B720, BullSequana X et le nouveau calculateur XH2000. L’objectif principal était de garantir la performance, la disponibilité et la fiabilité des clusters pour le client.
Mon rôle et contributions
- Maintenance : matérielle des clusters existants, incluant le remplacement de pièces et le suivi des retours de matériel défectueux.
- Diagnostic : et analyse des pannes pour identifier rapidement les causes et proposer des solutions adaptées.
- Automatisation : via scripts pour optimiser la gestion des incidents, réduisant les temps d’indisponibilité et facilitant la supervision des clusters.
- Contrôle : et optimisation des stocks clients pour garantir la disponibilité des pièces critiques.
- Installation : et configuration du nouveau calculateur XH2000, incluant le raccordement réseau (fibre optique et RJ45), la mise en validation et la mise en production du cluster.
Défis et solutions
- Disponibilité : maintenir les clusters existants tout en effectuant les remplacements et mises à jour du matériel.
- Identification : rapide des pannes dans un environnement complexe multi-systèmes.
- Automatisation : et optimisation du workflow de gestion des incidents pour réduire les temps d’indisponibilité.
- Installation : matérielle du calculateur XH2000 et réalisation du câblage réseau (fibre optique et RJ45), avec résolution des problèmes rencontrés lors de l’installation.
Résultats
- Haute disponibilité maintenue pour les clusters Bullx DLC B720 et BullSequana X.
- Réduction significative des temps d’indisponibilité grâce aux scripts et à l’automatisation des workflows.
- Installation et mise en production réussies du calculateur XH2000 avec raccordement réseau complet.
- Supervision efficace de l’état des machines et suivi précis des pièces critiques.
- Optimisation des stocks pour garantir la disponibilité continue du matériel nécessaire.
Compétences et technologies
BullSequana XH2000
BullSequana X
Bullx DLC B720
NetApp
Seagate
DataDirect Networks
RAID
SAN
NAS
RHEL7
CentOS
SSH
Script Bash
Shell
Workflow automatisé
Gestion des pannes
Automatisation
Python
Fibre optique
RJ45
BXI
Infiniband
Ethernet haut débit
Switches HPC
Monitoring
Nagios
Supervision HPC
Diagnostic matériel
Maintenance préventive
Résolution d’incidents




















