Mis à jour le 10 mai 2026 · Édition #5

Benchmark IA Mensuel · Classement LLM Indépendant

Le seul classement français des grands modèles de langage mis à jour chaque mois. MMLU, HumanEval+, GPQA, LMSYS Arena Elo, prix par million de tokens. Méthodologie transparente, sources publiques, aucune rémunération vendor.

Voir le classement de mai 2026 Méthodologie

modèles testés

benchmarks utilisés

M-1

mise à jour mensuelle

100%

indépendance vendor

EDITION MAI 2026

Classement LLM — Mai 2026

Score global pondéré : MMLU 25% + HumanEval+ 25% + GPQA 25% + LMSYS Arena Elo normalisé 25%. Tous les chiffres sont sourcés LMSYS, Vellum AI, Artificial Analysis et OpenLLM Leaderboard (avril–mai 2026, estimations 2026).

Rang	Modèle	MMLU	HumanEval+	GPQA	Arena Elo	Prix /1M tok (in/out)	Score global
1	GPT-5 (OpenAI)	90,4 %	88,1 %	71,2 %	1442	10 $ / 30 $	94,7
2	Claude Opus 4.7 (Anthropic)	89,7 %	90,3 %	70,4 %	1438	15 $ / 75 $	94,2
3	Gemini 2.5 Pro (Google)	88,9 %	86,2 %	68,9 %	1421	7 $ / 21 $	92,6
4	Claude Sonnet 4.5	87,1 %	87,4 %	66,8 %	1395	3 $ / 15 $	90,1
5	o3-mini (OpenAI)	86,9 %	88,6 %	75,7 %	1372	1,1 $ / 4,4 $	89,8
6	GPT-5-mini	85,4 %	84,7 %	63,1 %	1361	0,15 $ / 0,60 $	87,9
7	Llama 4 405B (Meta)	85,2 %	82,3 %	61,7 %	1348	3 $ / 6 $ (open)	86,9
8	Gemini 2.5 Flash	83,8 %	80,9 %	60,3 %	1340	0,30 $ / 2,50 $	85,7
9	DeepSeek V3	82,6 %	83,9 %	58,4 %	1331	0,27 $ / 1,10 $ (open)	84,8
10	Mistral Large 2 (2411)	81,9 %	79,2 %	56,1 %	1314	2 $ / 6 $	82,4
11	Qwen 2.5 72B (Alibaba)	80,8 %	78,6 %	53,7 %	1298	0,90 $ / 0,90 $ (open)	80,1
12	Grok 3 (xAI)	79,7 %	76,8 %	52,9 %	1289	5 $ / 15 $	78,6

Lire l'analyse complète de mai 2026

Méthodologie transparente

Sources des scores

▸LMSYS Chatbot Arena — Elo issu de plus de deux millions de votes humains (lmsys.org).
▸Artificial Analysis — performances et latence end-to-end (artificialanalysis.ai).
▸Vellum AI Leaderboard — benchmarks consolidés vendor.
▸OpenLLM Leaderboard (HuggingFace) — modèles open-weights, MMLU, ARC, HellaSwag, TruthfulQA.
▸Papers officiels et model cards des vendors (OpenAI, Anthropic, Google DeepMind, Meta, Mistral, Alibaba, DeepSeek, xAI).

Critères et pondération

25 % MMLU 5-shot — raisonnement général, 57 disciplines.
25 % HumanEval+ — génération de code vérifiée (EvalPlus, robuste anti-pollution).
25 % GPQA Diamond — questions sciences niveau doctorat, anti-Google.
25 % LMSYS Arena Elo — préférence humaine, normalisé 0-100 sur la fenêtre [1100; 1500].

La pondération équilibre raisonnement (MMLU + GPQA), production (HumanEval+) et expérience utilisateur (Arena). Les ratios prix/perf sont calculés séparément pour ne pas masquer la qualité brute.

🕒

Mensuel, le 10

Mise à jour systématique chaque 10 du mois, avec changelog des nouveaux modèles testés.

📊

Sources publiques

Aucun benchmark interne propriétaire. Tout est vérifiable sur LMSYS, EvalPlus, OpenLLM Leaderboard.

⚖

Zéro partenariat vendor

Pas de rémunération OpenAI, Anthropic, Google ou autre. Indépendance éditoriale totale.

Catégories spécialisées

Au-delà du classement général, six familles de benchmarks pour comparer les modèles sur leur cas d'usage cible.

🤖

LLM généralistes

GPT-5, Claude Opus 4.7, Gemini 2.5 Pro — le top du raisonnement général.

🌐

LLM open source

Llama 4, Mistral, Qwen, DeepSeek — auto-hébergeables, audit code.

📊

Embeddings

OpenAI, Cohere, Voyage AI, Mistral — bench MTEB, RAG, retrieval.

👀

Vision & multimodal

GPT-5 Vision, Claude Vision, Gemini — MMMU, ChartQA, DocVQA.

💻

Coding & agents

HumanEval+, MBPP, SWE-bench Verified — le code en conditions réelles.

🛡

Cybersécurité

PurpleLlama CyberSec Eval, MLCommons AI Safety, jailbreak résistance.

Évolution dans le temps

Depuis le lancement de notre benchmark en janvier 2026, le classement a vu trois changements de leader. La progression annuelle moyenne du score MMLU est de +8 points, signe que la frontière des modèles se déplace toujours plus vite que prévu.

Score global — Top 4 (jan-mai 2026)

Anthropic a pris la tête en mars avec Claude Opus 4.7 ; OpenAI a répondu en avril avec GPT-5 1M context. Gemini 2.5 Pro grimpe régulièrement grâce à sa version pricing aggressive.

Série complète des classements

Edition #5 · Mai 2026

Benchmark LLM Mai 2026 : classement complet

Synthèse 6 000+ mots, méthodologie, 12 modèles comparés, recommandations par cas d'usage, conformité AI Act, RGPD et data residency.

Lire l'article complet →

Éditions précédentes

Archives 2026

· Janvier 2026 — sortie de Claude Sonnet 4.5
· Février 2026 — arrivée Mistral Large 2 et Qwen 2.5
· Mars 2026 — Claude Opus 4.7 prend la tête
· Avril 2026 — lancement GPT-5 et Gemini 2.5 Pro

Les éditions précédentes seront republiées prochainement avec leurs analyses détaillées.

Newsletter Benchmark IA

Recevez le classement complet le 10 du mois, avec analyse des nouveautés, biais détectés et recommandations enterprise. Aucune publicité, désabonnement en un clic.

Vos données restent en France · RGPD compliant · pas de tracking publicitaire

Questions fréquentes

Comment sont calculés les scores du benchmark ?

Le score global est une moyenne pondérée à 25 % chacun de quatre signaux : MMLU 5-shot (raisonnement général), HumanEval+ (code), GPQA Diamond (sciences niveau doctorat) et LMSYS Arena Elo normalisé sur la fenêtre [1100 ; 1500] vers [0 ; 100]. Les scores bruts sont récupérés manuellement chez les sources publiques citées. Aucun benchmark interne, aucun chiffre vendor non publié.

Pourquoi un classement mensuel et pas trimestriel ?

Le rythme de release des LLM frontier s'est accéléré en 2025-2026 : OpenAI a sorti GPT-5, Anthropic Claude Opus 4.7, Google Gemini 2.5 Pro et Meta Llama 4 sur les mêmes 6 mois. Un classement trimestriel serait obsolète dès sa publication. La cadence mensuelle, le 10 du mois, garantit une vue stable et récente.

Quels modèles propriétaires testez-vous ?

Les modèles propriétaires couvrent : OpenAI (GPT-5, GPT-5-mini, o3-mini), Anthropic (Claude Opus 4.7, Sonnet 4.5), Google (Gemini 2.5 Pro et Flash), xAI (Grok 3). Côté open-weights : Meta Llama 4, Mistral Large 2 et Small 3, Alibaba Qwen 2.5, DeepSeek V3 et Phi-4. Les modèles sont testés via leur API officielle ou exécutés en local pour les open-source.

Pourquoi le top 3 change-t-il chaque mois ?

Trois raisons : (1) les vendors poussent des mises à jour silencieuses derrière les mêmes noms d'API (OpenAI a changé trois fois GPT-4o entre 2024 et 2025) ; (2) l'Arena Elo est dynamique — les scores bougent à chaque vague de nouveaux votes ; (3) certains modèles open-source rattrapent vite leurs cousins propriétaires avec un fine-tuning adéquat (cf. DeepSeek V3 à -85 % du coût).

Comment intégrer ce benchmark dans un audit IA d'entreprise ?

Notre audit sécurité IA et notre développement IA sur-mesure intègrent ce classement comme baseline. Nous l'enrichissons par : un benchmark interne sur vos données métier (souvent très différent du MMLU public), un test de conformité AI Act et un audit de data residency selon vos exigences RGPD. Le tout livré sous forme de rapport, indépendamment du choix vendor.

Le benchmark est-il sponsorisé par OpenAI, Anthropic ou Google ?

Non. Aucun partenariat commercial, aucune rémunération vendor, aucun lien d'affiliation sur les pages du benchmark. Le seul lien commercial est notre activité de conseil cyber et IA pour des entreprises clientes — ce qui justement nécessite une indépendance éditoriale stricte envers les vendors LLM.

Besoin d'un benchmark personnalisé sur vos données métier ?