Benchmark IA Mensuel · Classement LLM Indépendant
Le seul classement français des grands modèles de langage mis à jour chaque mois. MMLU, HumanEval+, GPQA, LMSYS Arena Elo, prix par million de tokens. Méthodologie transparente, sources publiques, aucune rémunération vendor.
modèles testés
benchmarks utilisés
mise à jour mensuelle
indépendance vendor
Classement LLM — Mai 2026
Score global pondéré : MMLU 25% + HumanEval+ 25% + GPQA 25% + LMSYS Arena Elo normalisé 25%. Tous les chiffres sont sourcés LMSYS, Vellum AI, Artificial Analysis et OpenLLM Leaderboard (avril–mai 2026, estimations 2026).
| Rang | Modèle | MMLU | HumanEval+ | GPQA | Arena Elo | Prix /1M tok (in/out) | Score global |
|---|---|---|---|---|---|---|---|
| 1 | GPT-5 (OpenAI) | 90,4 % | 88,1 % | 71,2 % | 1442 | 10 $ / 30 $ | 94,7 |
| 2 | Claude Opus 4.7 (Anthropic) | 89,7 % | 90,3 % | 70,4 % | 1438 | 15 $ / 75 $ | 94,2 |
| 3 | Gemini 2.5 Pro (Google) | 88,9 % | 86,2 % | 68,9 % | 1421 | 7 $ / 21 $ | 92,6 |
| 4 | Claude Sonnet 4.5 | 87,1 % | 87,4 % | 66,8 % | 1395 | 3 $ / 15 $ | 90,1 |
| 5 | o3-mini (OpenAI) | 86,9 % | 88,6 % | 75,7 % | 1372 | 1,1 $ / 4,4 $ | 89,8 |
| 6 | GPT-5-mini | 85,4 % | 84,7 % | 63,1 % | 1361 | 0,15 $ / 0,60 $ | 87,9 |
| 7 | Llama 4 405B (Meta) | 85,2 % | 82,3 % | 61,7 % | 1348 | 3 $ / 6 $ (open) | 86,9 |
| 8 | Gemini 2.5 Flash | 83,8 % | 80,9 % | 60,3 % | 1340 | 0,30 $ / 2,50 $ | 85,7 |
| 9 | DeepSeek V3 | 82,6 % | 83,9 % | 58,4 % | 1331 | 0,27 $ / 1,10 $ (open) | 84,8 |
| 10 | Mistral Large 2 (2411) | 81,9 % | 79,2 % | 56,1 % | 1314 | 2 $ / 6 $ | 82,4 |
| 11 | Qwen 2.5 72B (Alibaba) | 80,8 % | 78,6 % | 53,7 % | 1298 | 0,90 $ / 0,90 $ (open) | 80,1 |
| 12 | Grok 3 (xAI) | 79,7 % | 76,8 % | 52,9 % | 1289 | 5 $ / 15 $ | 78,6 |
Méthodologie transparente
Sources des scores
- ▸LMSYS Chatbot Arena — Elo issu de plus de deux millions de votes humains (lmsys.org).
- ▸Artificial Analysis — performances et latence end-to-end (artificialanalysis.ai).
- ▸Vellum AI Leaderboard — benchmarks consolidés vendor.
- ▸OpenLLM Leaderboard (HuggingFace) — modèles open-weights, MMLU, ARC, HellaSwag, TruthfulQA.
- ▸Papers officiels et model cards des vendors (OpenAI, Anthropic, Google DeepMind, Meta, Mistral, Alibaba, DeepSeek, xAI).
Critères et pondération
- 25 % MMLU 5-shot — raisonnement général, 57 disciplines.
- 25 % HumanEval+ — génération de code vérifiée (EvalPlus, robuste anti-pollution).
- 25 % GPQA Diamond — questions sciences niveau doctorat, anti-Google.
- 25 % LMSYS Arena Elo — préférence humaine, normalisé 0-100 sur la fenêtre [1100; 1500].
La pondération équilibre raisonnement (MMLU + GPQA), production (HumanEval+) et expérience utilisateur (Arena). Les ratios prix/perf sont calculés séparément pour ne pas masquer la qualité brute.
Mensuel, le 10
Mise à jour systématique chaque 10 du mois, avec changelog des nouveaux modèles testés.
Sources publiques
Aucun benchmark interne propriétaire. Tout est vérifiable sur LMSYS, EvalPlus, OpenLLM Leaderboard.
Zéro partenariat vendor
Pas de rémunération OpenAI, Anthropic, Google ou autre. Indépendance éditoriale totale.
Catégories spécialisées
Au-delà du classement général, six familles de benchmarks pour comparer les modèles sur leur cas d'usage cible.
LLM généralistes
GPT-5, Claude Opus 4.7, Gemini 2.5 Pro — le top du raisonnement général.
LLM open source
Llama 4, Mistral, Qwen, DeepSeek — auto-hébergeables, audit code.
Embeddings
OpenAI, Cohere, Voyage AI, Mistral — bench MTEB, RAG, retrieval.
Vision & multimodal
GPT-5 Vision, Claude Vision, Gemini — MMMU, ChartQA, DocVQA.
Coding & agents
HumanEval+, MBPP, SWE-bench Verified — le code en conditions réelles.
Cybersécurité
PurpleLlama CyberSec Eval, MLCommons AI Safety, jailbreak résistance.
Évolution dans le temps
Depuis le lancement de notre benchmark en janvier 2026, le classement a vu trois changements de leader. La progression annuelle moyenne du score MMLU est de +8 points, signe que la frontière des modèles se déplace toujours plus vite que prévu.
Score global — Top 4 (jan-mai 2026)
Anthropic a pris la tête en mars avec Claude Opus 4.7 ; OpenAI a répondu en avril avec GPT-5 1M context. Gemini 2.5 Pro grimpe régulièrement grâce à sa version pricing aggressive.
Série complète des classements
Benchmark LLM Mai 2026 : classement complet
Synthèse 6 000+ mots, méthodologie, 12 modèles comparés, recommandations par cas d'usage, conformité AI Act, RGPD et data residency.
Lire l'article complet →Archives 2026
- · Janvier 2026 — sortie de Claude Sonnet 4.5
- · Février 2026 — arrivée Mistral Large 2 et Qwen 2.5
- · Mars 2026 — Claude Opus 4.7 prend la tête
- · Avril 2026 — lancement GPT-5 et Gemini 2.5 Pro
Les éditions précédentes seront republiées prochainement avec leurs analyses détaillées.
Newsletter Benchmark IA
Recevez le classement complet le 10 du mois, avec analyse des nouveautés, biais détectés et recommandations enterprise. Aucune publicité, désabonnement en un clic.
Vos données restent en France · RGPD compliant · pas de tracking publicitaire
Questions fréquentes
Comment sont calculés les scores du benchmark ?
Le score global est une moyenne pondérée à 25 % chacun de quatre signaux : MMLU 5-shot (raisonnement général), HumanEval+ (code), GPQA Diamond (sciences niveau doctorat) et LMSYS Arena Elo normalisé sur la fenêtre [1100 ; 1500] vers [0 ; 100]. Les scores bruts sont récupérés manuellement chez les sources publiques citées. Aucun benchmark interne, aucun chiffre vendor non publié.
Pourquoi un classement mensuel et pas trimestriel ?
Le rythme de release des LLM frontier s'est accéléré en 2025-2026 : OpenAI a sorti GPT-5, Anthropic Claude Opus 4.7, Google Gemini 2.5 Pro et Meta Llama 4 sur les mêmes 6 mois. Un classement trimestriel serait obsolète dès sa publication. La cadence mensuelle, le 10 du mois, garantit une vue stable et récente.
Quels modèles propriétaires testez-vous ?
Les modèles propriétaires couvrent : OpenAI (GPT-5, GPT-5-mini, o3-mini), Anthropic (Claude Opus 4.7, Sonnet 4.5), Google (Gemini 2.5 Pro et Flash), xAI (Grok 3). Côté open-weights : Meta Llama 4, Mistral Large 2 et Small 3, Alibaba Qwen 2.5, DeepSeek V3 et Phi-4. Les modèles sont testés via leur API officielle ou exécutés en local pour les open-source.
Pourquoi le top 3 change-t-il chaque mois ?
Trois raisons : (1) les vendors poussent des mises à jour silencieuses derrière les mêmes noms d'API (OpenAI a changé trois fois GPT-4o entre 2024 et 2025) ; (2) l'Arena Elo est dynamique — les scores bougent à chaque vague de nouveaux votes ; (3) certains modèles open-source rattrapent vite leurs cousins propriétaires avec un fine-tuning adéquat (cf. DeepSeek V3 à -85 % du coût).
Comment intégrer ce benchmark dans un audit IA d'entreprise ?
Notre audit sécurité IA et notre développement IA sur-mesure intègrent ce classement comme baseline. Nous l'enrichissons par : un benchmark interne sur vos données métier (souvent très différent du MMLU public), un test de conformité AI Act et un audit de data residency selon vos exigences RGPD. Le tout livré sous forme de rapport, indépendamment du choix vendor.
Le benchmark est-il sponsorisé par OpenAI, Anthropic ou Google ?
Non. Aucun partenariat commercial, aucune rémunération vendor, aucun lien d'affiliation sur les pages du benchmark. Le seul lien commercial est notre activité de conseil cyber et IA pour des entreprises clientes — ce qui justement nécessite une indépendance éditoriale stricte envers les vendors LLM.
Besoin d'un benchmark personnalisé sur vos données métier ?