CyberSec-Assistant-3B est un modèle de langage compact mis à disposition sur le portfolio huggingface de Ayi Nedjimi et entraîné spécifiquement pour assister les analystes cybersécurité francophones. Construit sur une base 3 milliards de paramètres, il a été fine-tuné via SFT et DPO sur un corpus de 350 000 instructions techniques extraites de CVE annotées, de la matrice MITRE ATT&CK, du Top 10 OWASP, des bulletins du CERT-FR et des guides ANSSI publiquement diffusés. Le modèle vise un compromis utile : tenir dans 8 Go de VRAM sur une carte grand public ou tourner sur CPU en quantization Q4_K_M, tout en répondant pertinemment aux questions techniques d'un opérateur SOC qui veut clarifier une alerte, rédiger une recommandation de remédiation, traduire une procédure offensive en plan défensif ou expliquer une norme à un comité de direction. Cet article décrit le périmètre du modèle, sa méthode d'entraînement, ses cas d'usage opérationnels et ses limites assumées.

Points clés

  • CyberSec-Assistant-3B est un LLM francophone spécialisé cybersécurité, taille 3B, déployable en local CPU ou GPU.
  • Fine-tuning SFT et DPO sur 350 000 instructions issues de CVE, ATT&CK, OWASP, ANSSI et CERT-FR.
  • Format GGUF Q4 disponible pour Ollama, llama.cpp, LM Studio et vLLM.
  • Aucun appel cloud requis : confidentialité native pour SOC souverain et investigations sensibles.

Pourquoi un LLM spécialisé cybersécurité francophone

Les grands modèles généralistes savent répondre en français à des questions de cybersécurité mais ils peinent sur trois axes. Premièrement, la terminologie franco-française précise : AIPD, ANSSI, PASSI, SecNumCloud, OIV, OSE n'apparaissent que faiblement dans leurs corpus d'entraînement majoritairement anglophones. Deuxièmement, la précision factuelle sur les techniques MITRE ATT&CK : un T1078.004 sera souvent confondu avec un T1078.001 dans une réponse improvisée. Troisièmement, la confidentialité : les analystes SOC ne peuvent pas envoyer des artefacts d'incident à un service cloud externe sans risquer une fuite de propriété intellectuelle ou de données client.

CyberSec-Assistant-3B répond à ces trois exigences. Son corpus de fine-tuning est trilingue mais avec une dominante française. Les exemples factuels ont été ancrés sur la base CVE-MITRE et sur les guides ANSSI publics afin de réduire les hallucinations. Surtout, sa taille modeste permet une inférence 100 pour cent locale, sans aucune dépendance externe.

À quoi sert le modèle au quotidien

Le modèle est conçu comme un copilote contextuel pour les opérateurs SOC, les RSSI, les consultants en gouvernance et les pentesters francophones. Il accélère plusieurs tâches du quotidien : clarification d'une alerte SIEM en langage naturel, génération d'une procédure de remédiation conforme aux guides ANSSI, traduction d'une technique MITRE ATT&CK en mesures de détection concrètes, rédaction d'un mémo de conformité pour un comité de direction, brainstorming de scénarios de tests d'intrusion.

Sa taille permet en outre de l'embarquer dans un assistant interne au SI sans GPU dédié : avec une quantization Q4_K_M, il tourne sur un laptop équipé de 16 Go de RAM et délivre 25 à 35 tokens par seconde, vitesse acceptable pour des interactions de type chat. En contexte GPU, sur une RTX 4060 Ti 8 Go, il atteint 70 à 90 tokens par seconde en pleine précision F16.

Méthodologie d'entraînement

Le modèle a été construit en quatre phases. Première phase, sélection du modèle de base. Un modèle 3B publié sous licence permissive a été retenu pour ses bonnes performances de base en français et sa licence compatible avec un usage commercial restreint. Deuxième phase, construction du dataset. Un corpus de 350 000 instructions a été assemblé à partir de quatre sources principales : 120 000 paires question-réponse extraites des CVE annotées et de leurs descriptions techniques, 90 000 exemples couvrant les 600 sous-techniques MITRE ATT&CK et leurs procédures, 80 000 exemples OWASP Top 10 web et mobile, 60 000 exemples issus des guides ANSSI et bulletins CERT-FR publics. Chaque exemple a été contrôlé pour éviter les hallucinations factuelles.

Troisième phase, supervised fine-tuning. La méthode QLoRA a été utilisée avec un rang adapté à la taille du modèle pour limiter le coût GPU. La phase SFT a duré trois epochs. Quatrième phase, Direct Preference Optimization. Une batterie de 12 000 paires préférées a été collectée auprès de cinq experts cybersécurité francophones. Cette phase DPO a affiné la qualité conversationnelle et réduit les réponses ambiguës.

L'ensemble des artefacts d'entraînement, hors corpus pour des raisons de licence, est documenté dans la model card publiée sur Hugging Face. Les benchmarks internes mesurent une amélioration de 18 points sur l'évaluation MITRE-ATT&CK-QA-FR et de 14 points sur OWASP-Top10-FR par rapport au modèle de base, sans dégradation significative sur MMLU-FR.

Évaluation et benchmarks internes

Le modèle a été évalué sur quatre suites de tests internes. Le premier benchmark, MITRE-ATT&CK-QA-FR, comporte 500 questions sur la matrice MITRE ATT&CK avec attentes factuelles strictes. Le modèle atteint 82 pour cent de réponses correctes, contre 64 pour cent pour la base 3B initiale et 71 pour cent pour un modèle généraliste 8B francophone. Le deuxième benchmark, OWASP-Top10-FR, valide la couverture des risques applicatifs web et mobile : le modèle obtient 79 pour cent. Le troisième, CERT-FR-Brief, mesure la capacité à résumer un bulletin CERT-FR en moins de 200 mots tout en préservant les critères de criticité, le périmètre, les versions impactées et les contre-mesures : le score humain moyen est 4,3 sur 5. Le quatrième, ANSSI-Recommandation-Quiz, vérifie la connaissance des guides ANSSI : 84 pour cent.

Aucune de ces évaluations n'est un benchmark public reconnu, ce qui empêche une comparaison directe avec les leaderboards Hugging Face. La model card invite les utilisateurs à reproduire les benchmarks dans leur contexte avec leurs propres jeux de tests internes pour valider l'adéquation. Les organisations qui développent leur propre suite sont encouragées à partager une version anonymisée pour enrichir la communauté.

Cas d'usage opérationnels

Une équipe SOC francophone l'utilise comme assistant de premier niveau pour préqualifier les alertes Wazuh. Le modèle prend en entrée la règle ayant déclenché, l'événement brut et le contexte hôte, puis produit un résumé en français, une probabilité de faux positif et une suggestion de prochain pas. L'analyste valide ou corrige.

Un cabinet d'audit s'appuie sur le modèle pour pré-rédiger les sections techniques de ses rapports : description des vulnérabilités, mapping vers les contrôles ISO 27001 ou NIS 2, recommandations alignées sur les guides ANSSI. Les auditeurs gagnent en moyenne 30 pour cent de temps de rédaction tout en gardant un contrôle qualité humain.

Un RSSI d'ETI utilise le modèle comme rédacteur de notes de sensibilisation à destination de ses utilisateurs. Le ton, la terminologie et les exemples sont alignés sur le contexte français, ce qui évite les tournures issues d'une traduction automatique. La maintenance des contenus se réduit drastiquement.

Un développeur sécurité l'utilise localement dans son éditeur via Continue.dev branché sur Ollama. Le modèle commente du code Python ou Go en signalant les patterns OWASP et propose des correctifs alignés sur les bonnes pratiques. Aucune ligne de code ne quitte le poste.

Enfin, un enseignant en master de cybersécurité l'utilise comme tuteur conversationnel pour ses étudiants francophones. La fiabilité de la terminologie ANSSI et la cohérence des explications MITRE en font un partenaire pédagogique utile, à condition de garder une couche de vérification humaine pour les cas limites.

Installation rapide

Le modèle est publié en plusieurs formats. Le format SafeTensors complet est destiné aux environnements GPU avec vLLM, Text Generation Inference ou Hugging Face Transformers. Le format GGUF quantizé Q4_K_M, Q5_K_M et Q8_0 est destiné à Ollama, llama.cpp et LM Studio.

# Installation Ollama
ollama pull cybersec-assistant-3b:q4
ollama run cybersec-assistant-3b:q4 "Explique CVE-2024-3094 et son impact"

# Hugging Face Transformers Python
from transformers import AutoTokenizer, AutoModelForCausalLM
import torch
tok = AutoTokenizer.from_pretrained("ayinedjimi/CyberSec-Assistant-3B")
mod = AutoModelForCausalLM.from_pretrained(
    "ayinedjimi/CyberSec-Assistant-3B",
    torch_dtype=torch.float16,
    device_map="auto"
)
prompt = "Comment detecter une attaque Kerberoasting ?"
out = mod.generate(**tok(prompt, return_tensors="pt").to(mod.device), max_new_tokens=400)
print(tok.decode(out[0], skip_special_tokens=True))

Pour un déploiement vLLM en production, un fichier docker-compose et une configuration de quantization AWQ sont fournis. Le modèle accepte un contexte effectif de 8192 tokens, ce qui permet de l'alimenter avec un événement SIEM volumineux ou un fragment de log applicatif.

Comparaison avec les LLM généralistes du marché

Sur les tâches cybersécurité francophones étroites, CyberSec-Assistant-3B surpasse régulièrement des modèles trois à dix fois plus gros. Cette inversion n'est pas surprenante : la spécialisation par fine-tuning sur un corpus étroit améliore la précision factuelle au détriment du raisonnement généraliste. Sur des tâches générales programmation, écriture créative, traduction littéraire, un modèle 70B reste largement supérieur.

L'intérêt pratique du modèle 3B est triple. Premièrement, le coût d'inférence : pour le SOC qui fait tourner un copilote 24 heures sur 24, la différence entre un modèle 3B local et un appel cloud à un modèle frontier se chiffre en milliers d'euros par mois. Deuxièmement, la latence : le 3B local répond en moins d'une seconde sur GPU, là où le cloud impose plusieurs centaines de millisecondes de réseau. Troisièmement, la confidentialité : aucun artefact d'incident ne quitte le SI.

Limites et garde-fous

CyberSec-Assistant-3B reste un modèle 3B : il ne rivalise pas avec un modèle 70B sur des tâches de raisonnement multi-étapes complexes ni sur la rédaction longue. Sa spécialisation cybersécurité francophone limite son intérêt pour des tâches généralistes. Le risque d'hallucination est réduit mais non nul, en particulier sur des CVE très récentes publiées après la coupure du corpus. Aucune sortie ne doit être considérée comme une recommandation officielle de l'ANSSI ou d'un éditeur. Les utilisateurs sont invités à conserver une revue humaine systématique, surtout pour les actions de remédiation à fort impact.

Le modèle a été aligné pour refuser les demandes ouvertement offensives, telles que la génération d'un implant clé en main ou la production d'un exploit pour une CVE non patchée connue. Les jailbreaks basiques sont filtrés mais aucune protection ne résiste à une intention adverse motivée. Le modèle est destiné à un usage professionnel défensif.

Roadmap

Quatre axes structurent la suite du projet. Premier axe, montée en taille avec une version 7B et une version 14B pour les organisations disposant de la capacité GPU. Deuxième axe, extension du corpus aux référentiels NIS 2, DORA et IEC 62443. Troisième axe, fine-tuning RAG natif sur la dernière version du framework MITRE ATT&CK et sur les fiches CERT-FR mensuelles. Quatrième axe, publication d'évaluations transparentes via le harness EleutherAI et benchmark cybersécurité francophone partagé avec la communauté.

FAQ

Le modèle peut-il tourner sans GPU ?

Oui. La quantization Q4_K_M en GGUF permet une exécution CPU correcte sur un laptop récent. Comptez 25 à 35 tokens par seconde sur un AMD Ryzen 7 ou un Apple M2. Pour un usage chat, l'expérience reste fluide.

Quelle est la longueur de contexte maximale ?

Le modèle accepte 8192 tokens en contexte effectif. C'est suffisant pour passer en entrée un événement SIEM enrichi, un fragment de pcap résumé ou une section de guide ANSSI complète.

Le modèle conserve-t-il les données envoyées en prompt ?

Non. Aucun mécanisme de mémorisation persistante n'est intégré : chaque inférence repose uniquement sur le prompt fourni. Si l'utilisateur souhaite un comportement RAG, il doit le coupler à une base vectorielle externe placée sous son contrôle.

Peut-on fine-tuner le modèle sur ses propres données internes ?

Oui, la licence le permet pour un usage interne. Une recette QLoRA est fournie pour fine-tuner sur quelques milliers d'exemples internes sans coût GPU prohibitif. Les organisations qui poussent ce chemin sont invitées à publier leurs évaluations comparatives quand la confidentialité le permet.

Pour aller plus loin

La fiche modèle complète, les checkpoints, la model card et les exemples sont accessibles via le portfolio /huggingface du compte Ayi Nedjimi. Pour approfondir le contexte LLM et cybersécurité, consultez le comparatif des LLM open source 2026, l'analyse LLM local Ollama, LM Studio et vLLM, l'article LLM on premise versus cloud et l'étude sécurité des agents LLM.

Accéder à la ressource

Le modèle est disponible sur Hugging Face : huggingface.co/AYI-NEDJIMI/CyberSec-Assistant-3B — version quantifiée GGUF pour Ollama/llama.cpp : huggingface.co/AYI-NEDJIMI/CyberSec-Assistant-3B-GGUF.

→ Modèle sur Hugging Face → Version GGUF