La conception d'un cluster Proxmox VE 9.1 en 3 nœuds requiert une approche méthodique intégrant les meilleures pratiques en matière de réseau, stockage et sécurité. Ce guide architecturel complet couvre le dimensionnement MLAG/LACP pour la redondance réseau, la configuration Corosync (moteur de communication du cluster Proxmox) avec le protocole Kronosnet pour la résilience du quorum, le stockage distribué Ceph NVMe pour des performances I/O optimales, et la mise en place d'un pare-feu PVE Firewall en 3 niveaux (datacenter, nœud, VM) pour une infrastructure de production robuste. Ce guide s'adresse aux administrateurs souhaitant déployer une infrastructure haute disponibilité avec un budget maîtrisé, en exploitant pleinement les capacités natives de Proxmox VE 9.1 sans dépendance à des solutions propriétaires. Chaque section apporte des exemples de configuration concrets, des ratios de dimensionnement et des checklists de validation.
- Identification des vecteurs d'attaque et de la surface d'exposition
- Stratégies de détection et de réponse aux incidents
- Recommandations de durcissement et bonnes pratiques opérationnelles
- Impact sur la conformité réglementaire (NIS2, DORA, RGPD)
Points clés à retenir
- Un cluster 3 nœuds est le minimum recommandé pour la haute disponibilité : il garantit le quorum même avec la perte d'un nœud (2/3 votes disponibles).
- Séparer les réseaux Corosync, migration et stockage Ceph sur des interfaces dédiées est impératif pour éviter la congestion et les pannes de quorum.
- Le stockage Ceph NVMe en hyper-convergence offre des performances optimales, mais requiert au minimum 3 OSDs par nœud et des réseaux publics/cluster séparés.
- Le PVE Firewall en 3 niveaux permet une politique de sécurité granulaire : règles datacenter globales, règles par nœud et règles par VM/CT.
Architecture Réseau du Cluster : MLAG, LACP et Séparation des Flux
L'architecture réseau d'un cluster Proxmox VE 9.1 en production nécessite une séparation stricte des flux pour éviter les interférences entre le trafic de gestion, Corosync, la live migration et le stockage Ceph. La configuration recommandée utilise au minimum 4 interfaces physiques par nœud :
- vmbr0 (Management + VM) : 1GbE ou 10GbE, bonding LACP actif/passif
- vmbr1 (Corosync + Migration) : 10GbE dédié, faible latence (< 2ms)
- vmbr2 (Ceph Public Network) : 10/25GbE pour les accès RBD clients
- vmbr3 (Ceph Cluster Network) : 10/25GbE pour la réplication interne Ceph
Le MLAG (Multi-Chassis Link Aggregation) avec deux switches ToR permet d'éliminer les SPoF (Single Points of Failure) au niveau des commutateurs. Le LACP (802.3ad) agrège deux liaisons physiques en un canal logique, doublant la bande passante et assurant la redondance. La configuration dans /etc/network/interfaces utilise le module bonding Linux avec bond-mode 802.3ad.
Corosync et Kronosnet : Gestion du Quorum et Résilience
Corosync est le moteur de communication du cluster Proxmox, responsable de la gestion du quorum (mécanisme de vote majoritaire empêchant le split-brain). Dans Proxmox VE 9.1, Corosync utilise Kronosnet comme couche de transport, offrant chiffrement des communications (AES-256), compression et support multi-liens.
Pour un cluster 3 nœuds, le quorum est atteint avec 2 nœuds actifs (quorum = N/2 + 1 = 2). La configuration recommande deux anneaux Corosync sur des interfaces réseau distinctes pour la redondance. Le fichier /etc/pve/corosync.conf définit les membres du cluster, les adresses de chaque anneau et le paramètre expected_votes.
Commandes de diagnostic essentielles : pvecm status (état du cluster et quorum), corosync-quorumtool -s (détail du vote), journalctl -u corosync -f (logs en temps réel). Pour la gestion avancée du cluster, consultez notre guide d'administration CLI Proxmox.
Stockage Ceph NVMe en Hyper-Convergence
Ceph est la solution de stockage distribué native de Proxmox VE, offrant un stockage bloc (RBD), objet et fichier hautement disponible. En configuration hyper-convergée avec des disques NVMe, Ceph atteint des performances I/O exceptionnelles : latence < 1ms, IOPS > 500k par OSD.
L'architecture recommandée pour 3 nœuds : 3 OSDs NVMe par nœud (total 9 OSDs), factor de réplication size=3, min_size=2, et 2 MONs/MGRs sur les nœuds principaux. Les Placement Groups (PGs) doivent être calculés selon la formule : PGs = (OSDs × 100) / facteur_réplication. Pour 9 OSDs avec réplication 3 : PGs = 9 × 100 / 3 = 300 PGs.
La séparation des réseaux Ceph Public (accès clients RBD) et Cluster (réplication interne) est obligatoire en production. Le wiki Proxmox Ceph détaille les étapes de déploiement pour éviter que le trafic de réplication ne sature la bande passante des VMs. Pour le dimensionnement complet, consultez notre guide de dimensionnement Proxmox VE 9.
PVE Firewall : Sécurité en 3 Niveaux
Le PVE Firewall s'applique à 3 niveaux hiérarchiques : Datacenter (règles globales pour tout le cluster), Nœud (règles spécifiques à chaque hôte Proxmox) et VM/CT (règles par machine virtuelle ou conteneur). Cette architecture permet d'appliquer des politiques de sécurité granulaires sans duplication de règles.
Configuration de base recommandée : politique par défaut DROP sur le datacenter, avec règles d'autorisation explicites pour SSH (port 22), Web UI (port 8006), Corosync (UDP 5405-5406) et migrations (ports 60000-60050). Les IPSets regroupent les plages d'adresses de confiance (réseaux admin, supervision). Pour une sécurisation complète, référez-vous à notre guide de hardening Proxmox VE.
| Composant | Spécification minimale | Recommandée production |
|---|---|---|
| CPU par nœud | 8 cœurs / 16 threads | 32 cœurs / 64 threads |
| RAM par nœud | 64 Go ECC | 256 Go ECC |
| Stockage OS | 2× SSD SATA RAID1 | 2× NVMe ZFS mirror |
| Réseau Corosync | 1GbE dédié | 10GbE dédié redondant |
| Réseau Ceph | 10GbE | 25GbE public + cluster |
Haute Disponibilité : HA Manager et Fencing
Le PVE HA Manager surveille l'état des VMs et CTs protégés par HA et déclenche automatiquement le failover en cas de panne d'un nœud. Le fencing (STONITH - Shoot The Other Node In The Head) est le mécanisme critique qui éteint physiquement un nœud défaillant avant de redémarrer ses VMs ailleurs, éliminant le risque de split-brain avec le stockage partagé.
La configuration du fencing dans Proxmox utilise des dispositifs IPMI (iDRAC, iLO, IPMI 2.0) ou des PDU réseau (APC, Raritan). Sans fencing configuré, le HA Manager attend un timeout avant de redémarrer les VMs, augmentant le temps de récupération. Les groupes HA permettent de définir des priorités de nœuds pour le placement des VMs après failover.
Pour approfondir la réplication des données entre nœuds, consultez notre guide de réplication ZFS Proxmox. Pour automatiser le déploiement de votre cluster, voir notre guide de déploiement automatisé Proxmox.
Questions fréquentes
Pourquoi un cluster Proxmox doit-il avoir un nombre impair de nœuds ?
Le quorum Corosync repose sur un vote majoritaire : pour qu'une décision soit prise (démarrer/arrêter des VMs, modifier la configuration), plus de la moitié des nœuds doivent être disponibles. Avec 3 nœuds, la perte d'un nœud laisse 2/3 des votes disponibles (quorum atteint). Avec 2 nœuds, la perte d'un seul nœud bloque le cluster car aucun nœud n'a la majorité (1/2 insuffisant). Un nombre impair garantit toujours une majorité possible, évitant les situations de split-brain où deux partitions agissent indépendamment.
Comment séparer efficacement les réseaux Corosync et stockage dans Proxmox VE 9.1 ?
La séparation des réseaux se configure dans /etc/network/interfaces en créant des bridges dédiés pour chaque flux. Corosync utilise les adresses définies dans /etc/pve/corosync.conf (paramètre ring0_addr et ring1_addr). Le stockage Ceph utilise les paramètres public_network et cluster_network dans /etc/ceph/ceph.conf. Une bonne pratique consiste à utiliser des VLANs dédiés sur une infrastructure switch redondante, avec des interfaces physiques distinctes ou des bonds LACP pour chaque type de trafic.
Quelle est la configuration minimale pour un cluster Proxmox VE 9.1 en production ?
Pour une infrastructure de production fiable, chaque nœud doit disposer d'au minimum : 32 Go RAM ECC (ECC obligatoire pour ZFS), 2 interfaces réseau 10GbE (gestion + Corosync/migration), 1 interface 10GbE pour Ceph, et 2 SSD NVMe en mirror ZFS pour l'OS. Au niveau cluster, au moins 3 nœuds pour le quorum, un device de fencing IPMI sur chaque nœud et une alimentation redondante sur les serveurs. La documentation officielle Proxmox VE détaille les prérequis matériels selon les versions.
Sources et références : Proxmox VE Wiki · ANSSI
Conclusion
Une architecture Proxmox VE 9.1 en cluster 3 nœuds bien conçue offre haute disponibilité, performances et sécurité sans dépendance à des solutions propriétaires. La séparation des réseaux, le stockage Ceph hyper-convergé et le PVE Firewall multicouche constituent les piliers d'une infrastructure production-ready. L'investissement dans une architecture solide dès le départ évite les refontes coûteuses et les incidents en production.
Article suivant recommandé
Réplication Proxmox VE : ZFS, Snapshots et Checklist →Surface d'attaque : Ensemble des points d'entrée exploitables par un attaquant pour compromettre un système, incluant les services exposés, les interfaces utilisateur et les API.
Snapshotez systématiquement vos machines virtuelles avant toute modification critique. Un snapshot prend quelques secondes et peut éviter des heures de reconstruction.
Télécharger cet article en PDF
Format A4 optimisé pour l'impression et la lecture hors ligne
À propos de l'auteur
Ayi NEDJIMI
Expert Cybersécurité Offensive & Intelligence Artificielle
Ayi NEDJIMI est consultant senior en cybersécurité offensive et intelligence artificielle, avec plus de 20 ans d'expérience sur des missions à haute criticité. Il dirige Ayi NEDJIMI Consultants, cabinet spécialisé dans le pentest d'infrastructures complexes, l'audit de sécurité et le développement de solutions IA sur mesure.
Ses interventions couvrent l'audit Active Directory et la compromission de domaines, le pentest cloud (AWS, Azure, GCP), la rétro-ingénierie de malwares, le forensics numérique et l'intégration d'IA générative (RAG, agents LLM, fine-tuning). Il accompagne des organisations de toutes tailles — des PME aux grands groupes du CAC 40 — dans leur stratégie de sécurisation.
Contributeur actif à la communauté cybersécurité, il publie régulièrement des analyses techniques, des guides méthodologiques et des outils open source. Ses travaux font référence dans les domaines du pentest AD, de la conformité (NIS2, DORA, RGPD) et de la sécurité des systèmes industriels (OT/ICS).
Ressources & Outils de l'auteur
Articles connexes
Commentaires
Aucun commentaire pour le moment. Soyez le premier à commenter !
Laisser un commentaire