Mistral Large vs Claude Sonnet pour le français suisse-romand : notre benchmark interne

On a testé Mistral Large 2 et Claude Sonnet 4.6 sur 50 prompts métier en français de Suisse romande. Précision, nuance, latence, coût, souveraineté : les résultats.

Thibault Le Balier/12 avril 2026/10 min

Mistral Large vs Claude Sonnet pour le français suisse-romand : notre benchmark interne

C'est la question qui revient à chaque premier RDV avec un nouveau client romand : "On part sur Mistral parce que c'est français et souverain, ou sur Claude parce que c'est meilleur ?"

Spoiler : la question est mal posée. Mais on comprend pourquoi elle se pose. Alors on a pris le temps de la trancher pour de vrai, avec un protocole, des reviewers et des prompts qui ressemblent à ce que nos clients nous envoient.

Voici ce qu'on a vu.

Le protocole

On a constitué un jeu de 50 prompts métier en français de Suisse romande, tirés de cas réels rencontrés chez des clients PME (anonymisés). Cinq catégories, dix prompts chacune :

Extraction documentaire — factures fournisseurs, contrats d'assurance, ordres de virement.
Résumé exécutif — comptes-rendus de comité, rapports d'audit, notes internes.
Réponse client — emails support, demandes de devis entrantes, réclamations.
Génération de devis — propositions commerciales courtes à partir d'un brief.
Raisonnement technique — diagnostic logiciel, calculs financiers multi-étapes, logique métier.

Versions évaluées :

Claude Sonnet 4.6 (Anthropic, via API directe)
Mistral Large 2 (Mistral AI, via API La Plateforme, hébergement France)

Évaluation : deux reviewers humains (un dev senior, une cheffe de projet romande), grille à quatre critères — justesse, fluidité, fidélité au prompt, pertinence locale. Chaque prompt est noté en aveugle (les reviewers ne savent pas quel modèle a produit quelle réponse).

Résultats sur la précision technique

Sur les dix prompts de raisonnement multi-étapes (calculs financiers, diagnostic logique, enchaînement de règles métier), Claude prend une avance nette.

Sur les cas complexes — typiquement un calcul de marge avec TVA, remise palier et conversion CHF/EUR — Claude a produit la meilleure réponse 6 fois sur 10, Mistral 2 fois sur 10, les 2 restantes étant des matchs nuls. Sur les cas simples (calcul direct, règle unique), les deux modèles s'en sortent sans difficulté.

Là où Claude creuse l'écart : quand le prompt demande de détecter une incohérence dans les données fournies. Sur ce type de tâche, Mistral a tendance à exécuter la consigne en ignorant l'incohérence. Claude, lui, la pointe avant de répondre. C'est le genre de différence qui change la vie d'un agent en production — un agent qui n'a pas peur de dire "attends, il y a un problème dans ce que tu me demandes" est un agent qu'on peut laisser tourner sans surveillance permanente.

Sur le suivi d'instructions complexes (format de sortie strict, contraintes négatives type "n'utilise pas le mot X", JSON valide sans préambule), même tendance : Claude respecte plus rigoureusement. Mistral dérape sur les contraintes négatives une fois sur trois environ, et ajoute parfois un petit commentaire en tête de réponse alors qu'on lui a demandé de ne sortir que du JSON.

Sur les chaînes de raisonnement longues (plus de cinq étapes), Mistral commence à perdre le fil sur les variables intermédiaires. Claude tient sur dix à quinze étapes sans flancher. Pour les agents qui orchestrent plusieurs appels d'outils en cascade, c'est un facteur décisif.

Résultats sur la nuance suisse-romande

C'est le test qu'on attendait le plus, et c'est celui qui nous a le plus surpris.

Les deux modèles comprennent septante, huitante, nonante sans broncher. Pareil pour "natel", "action" (promotion), "déjeuner" (le repas du matin), "panosse", "cornet". On a essayé de les piéger avec des ambiguïtés ("je prends une action sur ce produit" — ça veut dire promotion, pas trading) : les deux passent.

Là où c'est plus intéressant : la tonalité.

Claude, par défaut, écrit dans un français plutôt soutenu, légèrement formel, parfois un poil académique. Mistral a une tonalité un cran en dessous, plus directe, plus "parlée". Sur des réponses clients courtes ou des emails internes, Mistral sonne souvent plus naturel pour un public romand. Pas une différence énorme, mais perceptible sur dix prompts.

Verdict : match plus serré que prévu. Les deux modèles sont à l'aise. Mistral a un léger avantage stylistique sur les textes courts conversationnels, Claude reprend la main dès qu'il faut un registre soigné ou un argumentaire structuré.

Une nuance qu'on a remarquée : Claude a tendance à franciser des anglicismes que les Romands utilisent au quotidien ("meeting" devient "réunion", "deadline" devient "échéance"). Mistral garde plus volontiers les termes tels quels. Selon le contexte, c'est un plus ou un moins. Pour un email interne à une équipe d'ingénieurs, garder "deadline" est probablement plus naturel. Pour un courrier à un client banquier privé, "échéance" passe mieux.

Sur les noms de lieux et d'institutions romandes (CFF, EPFL, HEG, Genève vs Genf, Sion vs Sitten), aucun problème de part et d'autre. On a aussi testé sur des termes administratifs spécifiques à la Suisse (LPP, AVS, permis B/C, OFS) — les deux modèles connaissent et utilisent correctement.

Résultats sur l'extraction structurée

C'est le cas d'usage le plus fréquent chez nos clients : on lui balance une facture PDF, on veut un JSON propre.

Type de document	Léger avantage
Facture standard (champs plats)	Mistral (un peu plus rapide, qualité équivalente)
Contrat d'assurance (schéma complexe, sous-objets)	Claude
Ordre de virement scanné (OCR bruité)	Claude
Tableau de comptes	Match

Sur les schémas simples, Mistral est très bien et plus rapide. Dès que le schéma devient profond (sous-objets, listes imbriquées, champs optionnels conditionnels), Claude reprend l'avantage : il respecte mieux la structure demandée et hallucine moins de champs.

Sur le bruité (OCR approximatif, scans tordus), Claude est plus prudent. Il préfère renvoyer null que d'inventer une valeur. Mistral est plus enclin à combler les trous. Pour un cas d'usage critique (compta, juridique), c'est un facteur structurant.

Résultats sur la latence

Mistral est nettement plus rapide sur notre panel. Claude prend environ 30 à 40% plus de temps en moyenne sur les prompts courts, et l'écart se resserre à mesure que les prompts s'allongent. On parle ici de latence end-to-end depuis Zurich, pas de TTFT (time to first token) — les deux ont un streaming correct.

Pour un agent qui doit répondre en moins de deux secondes (chatbot client, complétion live, suggestion pendant qu'un commercial tape une réponse), Mistral a un vrai avantage perceptuel. Sur un appel synchrone visible par l'utilisateur, 200 ms de différence se sentent, et nos clients le remarquent.

Pour un batch nocturne qui tourne sur 10'000 documents, la latence par requête compte moins — c'est le coût qui devient décisif, et la stabilité sur des longues séries (taux d'erreur, gestion du rate limit, comportement sur les retries).

Résultats sur le coût

Au tarif catalogue, Mistral Large 2 est environ 30 à 50% moins cher par million de tokens que Claude Sonnet 4.6 (ordre de grandeur, ça varie selon le tier de volume et les éventuels engagements). Sur un usage interne modeste (quelques milliers de requêtes par mois), l'écart est invisible sur la facture. Sur du volume — extraction massive, traduction de catalogues, génération en boucle — ça devient un poste budgétaire.

Un client qui traite 50'000 factures par mois ne se pose pas la question de la même manière qu'un cabinet qui en traite 200. Le coût par token ne devient un argument qu'à partir d'un certain seuil de volume. En dessous, c'est du bruit.

La souveraineté change la donne

C'est là que le débat technique se transforme en débat structurel.

Mistral est hébergé en France (Paris) ou disponible en self-hosted via les variantes open-weights. Pour un client soumis à la FINMA, à la nFADP (nLPD), ou simplement à une politique interne stricte sur la résidence des données, c'est un argument qui pèse lourd. Pas une préférence — un prérequis.

Claude est accessible via l'API Anthropic (hébergement US par défaut) ou via AWS Bedrock dans des régions EU (Francfort, Paris, Zurich quand disponible). Bedrock EU répond à beaucoup de contraintes de résidence, mais c'est un détour : il faut un compte AWS, une configuration IAM correcte, et accepter que les données transitent par l'infrastructure Amazon.

Sur le terrain, ce qu'on voit :

Pour une banque privée ou un gestionnaire de fortune romand, Mistral en France (voire self-hosted) lève des objections que Claude via Bedrock EU lève à moitié.
Pour une PME industrielle sans contrainte réglementaire forte, les deux options sont valables ; le débat se déplace vers la qualité et le coût.
Pour un cabinet d'avocats ou une fiduciaire, l'enjeu est moins la juridiction que la traçabilité du contrat de traitement. Sur ce point, les deux fournisseurs proposent des DPA solides. Mistral a un narratif plus simple à vendre en interne.

On en parle plus en détail dans souveraineté IA suisse FINMA.

La matrice de décision

Contexte	Choix recommandé
Raisonnement technique complexe, qualité prime	Claude Sonnet 4.6
Extraction structurée sur schéma profond	Claude Sonnet 4.6
Volume élevé, coût et latence prioritaires	Mistral Large 2
Souveraineté CH/EU obligatoire (FINMA, nFADP strict)	Mistral (ou Claude via Bedrock EU)
Tonalité romande sur contenu conversationnel court	Match — dépend du jugement humain
Agent multi-outils, tool use intensif	Claude Sonnet 4.6
Brouillon massif, résumés à la chaîne	Mistral Large 2
Self-hosting obligatoire (air-gapped)	Mistral (variantes open-weights)

Notre choix en 2026 par contexte

Ce qu'on déploie le plus souvent chez nos clients depuis début 2026, c'est un combo :

Claude Sonnet 4.6 pour les tâches critiques — extraction structurée sur documents juridiques ou financiers, agents avec tool use, raisonnement multi-étapes, génération de contenu qui sera lu par un client externe.
Mistral Large 2 pour le volume — résumés en cascade, traductions FR/DE/EN, brouillons rapides, première passe de classification, génération de variantes.

Le routing se fait en amont, soit via une logique applicative simple (catégorie de tâche → modèle), soit via n8n quand le client veut pouvoir le modifier sans toucher au code. On a quelques setups où c'est même un troisième modèle (un petit modèle local ou Haiku) qui fait le pré-tri et appelle Claude ou Mistral selon la complexité détectée.

L'intérêt de ce combo, au-delà de l'optimisation coût/qualité, c'est aussi la redondance : si une API tombe, l'autre encaisse. On a eu deux incidents Anthropic et un incident Mistral sur les douze derniers mois. Avoir les deux câblés, c'est une assurance qui ne coûte presque rien.

Le piège qu'on évite : changer de modèle sans retester les prompts. Un prompt soigneusement calibré pour Claude ne donne pas le même résultat sur Mistral, et vice-versa. À chaque bascule, on refait passer la suite de tests métier du client. Sans ça, on découvre les régressions en production, et c'est toujours douloureux. Si vous voulez router dynamiquement entre les deux, prévoyez un jeu de prompts par modèle — pas un prompt unique qu'on espère portable.

Pour comprendre comment ce routing s'articule avec le reste de la stack (mémoire, outils, données), voir rag vs fine-tuning vs mcp.

Ce qu'on retient

Les modèles évoluent vite. Claude 4.7 va sortir, Mistral aussi prépare la suite. Ce benchmark est une photo en mai 2026 — on le refera dans six mois, et il y a de bonnes chances que certaines conclusions bougent.

Mais une chose ne bougera pas : la bonne question n'est jamais "Mistral ou Claude ?". C'est "Quel modèle pour quel contexte, avec quelles contraintes ?". Un CTO qui choisit un modèle unique pour toute sa stack se prive de la moitié des gains.

D'ici la prochaine itération : choisissez le contexte, pas le modèle.