NOUVEAU - Intelligence Artificielle

Apprentissage Fédéré : Entraîner des Modèles sans Centraliser les Données

Federated learning avec Flower et PySyft, differential privacy et détection collaborative d'intrusions

Ayinedjimi Consultants 15 février 2026 15 min de lecture Niveau Avancé

1Introduction

L'apprentissage automatique traditionnel repose sur un paradigme centralisé : collecter les données de multiples sources vers un serveur unique, puis entraîner un modèle sur cet agrégat. Ce modèle, efficace sur le plan technique, se heurte à des contraintes fondamentales de confidentialité, de réglementation et de souveraineté des données. Le RGPD en Europe, le CCPA en Californie et les réglementations sectorielles (santé, finance, défense) imposent des restrictions croissantes sur le transfert et la centralisation des données personnelles et sensibles.

L'apprentissage fédéré (Federated Learning, FL) propose une inversion radicale de ce paradigme : au lieu de déplacer les données vers le modèle, on déplace le modèle vers les données. Introduit par Google en 2016 pour améliorer le clavier prédictif Gboard sans accéder aux messages des utilisateurs, le FL permet à plusieurs participants d'entraîner collaborativement un modèle partagé tout en conservant leurs données localement. Chaque participant entraîne le modèle sur ses propres données, puis ne transmet au serveur central que les mises à jour des poids (gradients), jamais les données brutes.

En cybersécurité, les implications sont considérables. Des organisations peuvent collaborer pour entraîner des modèles de détection d'intrusions ou de classification de malwares sans jamais exposer leurs journaux réseau, leurs indicateurs de compromission propriétaires ou leurs données clients. Cet article explore l'architecture du FL, les frameworks Flower et PySyft, les mécanismes de differential privacy et de secure aggregation, ainsi que les applications concrètes en détection collaborative de menaces.

2Architecture du Federated Learning

L'architecture classique du FL suit un modèle client-serveur orchestré en rounds itératifs. Un serveur d'agrégation central maintient le modèle global et coordonne l'entraînement distribué entre N clients, chacun disposant de son propre jeu de données local.

Le protocole FedAvg

L'algorithme Federated Averaging (FedAvg), proposé par McMahan et al. (2017), constitue la base de la plupart des systèmes FL. A chaque round : (1) le serveur distribue le modèle global courant aux clients sélectionnés, (2) chaque client effectue plusieurs époques d'entraînement local sur ses données privées via SGD, (3) les clients transmettent leurs modèles locaux mis à jour au serveur, (4) le serveur agrège les mises à jour par moyenne pondérée proportionnelle au nombre d'exemples de chaque client pour produire le nouveau modèle global.

Formule FedAvg : Le modèle global au round t+1 est calculé comme w(t+1) = somme(nk/n * wk(t+1)) où nk est le nombre d'exemples du client k, n le total, et wk(t+1) le modèle local du client k après entraînement. Cette pondération garantit que les clients ayant plus de données contribuent proportionnellement davantage.

Topologies FL

Trois topologies principales existent. Le FL centralisé utilise un serveur unique d'agrégation -- c'est l'approche la plus courante et la plus simple à implémenter. Le FL décentralisé (peer-to-peer) élimine le serveur central : chaque client communique directement avec ses voisins via un graphe de communication, éliminant le point de défaillance unique mais complexifiant la convergence. Le FL hiérarchique introduit des agrégateurs intermédiaires (edge servers) entre les clients et le serveur central, adapté aux déploiements à grande échelle avec des contraintes de latence géographique.

Deux paradigmes de données coexistent : le FL horizontal (ou sample-partitioned) où les clients partagent le même espace de features mais possèdent des échantillons différents (cas le plus courant, ex : hôpitaux avec les mêmes variables cliniques mais des patients distincts), et le FL vertical (ou feature-partitioned) où les clients possèdent des features différentes pour les mêmes entités (ex : une banque et un opérateur télécom partageant des clients communs mais avec des attributs distincts).

3Frameworks : Flower et PySyft

Flower (flwr)

Flower est un framework FL open-source conçu pour la flexibilité et la scalabilité en production. Son architecture modulaire permet d'utiliser n'importe quel framework ML (PyTorch, TensorFlow, JAX, scikit-learn) comme backend. Flower sépare clairement la logique FL (stratégie d'agrégation, sélection de clients, scheduling) du code ML local, facilitant l'intégration dans des pipelines existants.

PySyft

PySyft, développé par OpenMined, adopte une approche plus ambitieuse en intégrant le FL avec d'autres techniques de privacy-enhancing technologies (PETs) : calcul multipartite sécurisé (SMPC), chiffrement homomorphe, et trusted execution environments. PySyft introduit le concept de Remote Data Scientist : un chercheur soumet du code à un noeud de données (Domain Node) qui exécute l'analyse sur place et ne renvoie que les résultats approuvés par le propriétaire des données.

L'architecture PySyft repose sur des Domain Nodes (hébergent les données et contrôlent l'accès) et des Network Nodes (coordonnent la découverte et la collaboration entre Domain Nodes). Chaque dataset est exposé via une API mock : le chercheur développe et teste son code sur des données synthétiques, puis soumet une requête d'exécution sur les vraies données, soumise à validation du data owner. Cette séparation entre développement et exécution constitue un contrôle d'accès fin adapté aux environnements réglementés.

Flower vs PySyft : Flower excelle en production FL pure avec sa simplicité et sa scalabilité (des milliers de clients). PySyft est plus adapté aux scénarios nécessitant un contrôle granulaire sur l'accès aux données et l'intégration de multiples PETs. Pour un déploiement FL en cybersécurité, Flower est généralement le choix pragmatique ; PySyft convient mieux aux collaborations inter-organisationnelles avec des exigences réglementaires strictes.

4Differential Privacy

Le FL seul ne garantit pas la confidentialité : les mises à jour de gradients transmises au serveur peuvent fuiter des informations sur les données d'entraînement. Des attaques par inversion de gradients (Zhu et al., 2019) ont démontré la possibilité de reconstruire des images ou du texte à partir des gradients partagés. La differential privacy (DP) apporte une garantie mathématique formelle contre ces fuites.

Un mécanisme satisfait la (epsilon, delta)-differential privacy si, pour toute paire de datasets voisins D et D' différant d'un seul enregistrement, la probabilité de tout output est bornée : P[M(D) in S] ≤ e^epsilon * P[M(D') in S] + delta. Le paramètre epsilon contrôle le budget de confidentialité (plus il est petit, plus la garantie est forte), et delta représente la probabilité d'échec de la garantie. En pratique, on vise epsilon entre 1 et 10, avec delta inférieur à 1/N (N étant la taille du dataset).

Implémentation en FL

Deux approches complémentaires sont utilisées. La DP côté client (Local DP) ajoute du bruit directement sur les gradients avant transmission au serveur. Chaque client effectue un gradient clipping (norme L2 bornée à un seuil C) puis ajoute un bruit gaussien calibré : g_noisy = clip(g, C) + N(0, sigma^2 * C^2 * I). Cette approche offre la garantie la plus forte car le serveur ne voit jamais les gradients non bruités, mais dégrade davantage l'utilité du modèle.

La DP côté serveur (Central DP) ajoute le bruit après agrégation. Le serveur clippe les contributions individuelles puis ajoute le bruit au modèle agrégé. La garantie est plus faible (on fait confiance au serveur) mais l'impact sur l'utilité est moindre grâce à l'effet d'amplification par sous-échantillonnage : si seule une fraction q des clients participe à chaque round, le budget epsilon effectif est amplifié d'un facteur O(q * sqrt(log(1/delta))).

5Secure Aggregation

La secure aggregation (SecAgg) garantit que le serveur ne peut accéder qu'au résultat agrégé des mises à jour, sans pouvoir inspecter les contributions individuelles. Contrairement à la DP qui ajoute du bruit, SecAgg est un mécanisme cryptographique exact : le modèle agrégé est mathématiquement identique à celui obtenu par agrégation en clair.

Protocole de Bonawitz

Le protocole SecAgg de Google (Bonawitz et al., 2017) fonctionne en quatre phases. Lors du Key Agreement, chaque paire de clients négocie un secret partagé via Diffie-Hellman. Pendant le masquage, chaque client ajoute à sa mise à jour un masque pseudo-aléatoire dérivé des secrets partagés : pour chaque paire (i, j), le client i ajoute +PRG(seed_ij) et le client j ajoute -PRG(seed_ij). Lors de l'agrégation, la somme des masques s'annule automatiquement, révélant la somme des mises à jour réelles. Une phase de récupération gère les clients qui abandonnent en cours de round, grâce au partage de secrets de Shamir distribué en amont.

Le Secure Multi-Party Computation (SMPC) est l'alternative la plus robuste. Des protocoles comme SPDZ ou ABY permettent de calculer des fonctions arbitraires sur des données partagées entre plusieurs parties, sans qu'aucune partie ne puisse accéder aux inputs des autres. En FL, le SMPC peut être utilisé pour l'agrégation sécurisée mais aussi pour des opérations plus complexes comme la sélection sécurisée de clients ou l'évaluation distribuée du modèle. Le chiffrement homomorphe (HE), notamment le schéma CKKS pour les nombres réels, permet au serveur d'agrégé les mises à jour chiffrées sans jamais les déchiffrer, mais avec un surcoût computationnel de 100x à 1000x par rapport au calcul en clair.

6Applications en Cybersécurité

Détection collaborative d'intrusions

Le cas d'usage le plus prometteur du FL en cybersécurité est la détection collaborative d'intrusions réseau (NIDS). Chaque organisation entraîne localement un modèle de classification (normal vs. attaque) sur ses flux réseau, puis partage les gradients via FL. Le modèle global bénéficie de la diversité des environnements réseau et des types d'attaques vues par l'ensemble des participants, sans qu'aucun participant n'expose ses logs réseau ou sa topologie interne. Des études sur le dataset CIC-IDS2017 montrent que le FL atteint 95-97% de F1-score en détection d'attaques, contre 98% pour l'entraînement centralisé, un compromis acceptable pour la confidentialité.

Classification distribuée de malwares

Les éditeurs antivirus et les SOC détiennent chacun des collections partielles de malwares et de signatures. Le FL permet de construire un classificateur unifié sans centraliser les échantillons, ce qui est critique quand les malwares sont soumis à des accords de non-divulgation (TLP:RED/AMBER). Un modèle FL entraîné sur des features statiques (opcodes, entropie de sections, imports API) et dynamiques (appels système, comportement réseau) peut classifier les familles de malwares avec une précision comparable à l'approche centralisée.

Threat intelligence collaborative

Le partage d'indicateurs de compromission (IoC) entre organisations est freiné par les enjeux de confidentialité. Le FL permet de construire des modèles de scoring de réputation d'IP, de détection de domaines DGA ou de classification de campagnes APT en exploitant les données de multiples organisations sans les exposer. Le FL vertical est particulièrement pertinent ici : un ISP apporte les métadonnées de flux réseau, un éditeur de sécurité les signatures comportementales, et un CERT les rapports d'incidents, chacun conservant ses données propriétaires.

7Défis et Limitations

8Conclusion

L'apprentissage fédéré représente un changement de paradigme fondamental dans la manière dont les organisations peuvent collaborer sur des projets de machine learning. En combinant FL avec differential privacy et secure aggregation, il devient possible de construire des modèles performants tout en offrant des garanties mathématiques de confidentialité qui satisfont les exigences réglementaires les plus strictes.

Pour la cybersécurité, le FL ouvre la voie à une intelligence collective sans exposition mutuelle. La détection collaborative d'intrusions, la classification distribuée de malwares et le partage sécurisé de threat intelligence ne sont plus des concepts théoriques mais des réalités déployables avec des frameworks matures comme Flower et PySyft. Les défis d'hétérogénéité des données, de robustesse aux attaques byzantines et de compromis utilité/confidentialité restent actifs, mais les avancées rapides de la recherche -- FedProx, SCAFFOLD, agrégation robuste, DP amplifiée -- réduisent continuellement l'écart avec l'entraînement centralisé.

Recommandation : Pour un premier projet FL en cybersécurité, démarrez avec Flower et FedAvg sur un cas de détection d'anomalies réseau avec 3 à 5 participants. Ajoutez la DP côté serveur avec un epsilon de 8 à 10 pour un compromis raisonnable, puis durcissez progressivement vers SecAgg et une DP plus agressive (epsilon 1 à 3) une fois les pipelines stabilisés.

Besoin d'un accompagnement expert ?

Nos consultants en cybersécurité et IA vous accompagnent dans vos projets d'apprentissage fédéré et de machine learning privacy-preserving. Devis personnalisé sous 24h.

Ayi NEDJIMI - Expert Cybersécurité & IA

À Propos de l'Auteur

Ayi NEDJIMI - Expert Cybersécurité & IA

Ayi NEDJIMI est un expert senior en cybersécurité offensive et intelligence artificielle avec plus de 20 ans d'expérience en développement avancé, tests d'intrusion et architecture de systèmes critiques. Spécialisé en rétro-ingénierie logicielle, forensics numériques et développement de modèles IA, il accompagne les organisations stratégiques dans la sécurisation d'infrastructures hautement sensibles.

Expert reconnu en expertises judiciaires et investigations forensiques, Ayi intervient régulièrement en tant que consultant expert auprès des plus grandes organisations françaises et européennes. Son expertise technique couvre l'audit Active Directory, le pentest cloud (AWS, Azure, GCP), la rétro-ingénierie de malwares, ainsi que l'implémentation de solutions RAG et bases vectorielles (Milvus, Qdrant, Weaviate) pour des applications IA d'entreprise.

20+Ans d'expérience
100+Missions réalisées
150+Articles & conférences

Conférencier et formateur reconnu en cybersécurité, Ayi anime régulièrement des conférences techniques et participe activement au développement de modèles d'intelligence artificielle pour la détection de menaces avancées. Auteur de plus de 150 publications techniques, il partage son expertise de haut niveau pour aider les RSSI et architectes sécurité à anticiper les cybermenaces émergentes et déployer des solutions IA de nouvelle génération.

Options de lecture

Taille du texte
Espacement
Mode de lecture
Partager