Anthropic, DeepMind, Goodfire : pourquoi la mechanistic interpretability est devenue un moat à 200 M$

Comprendre ce que pense un modèle n'est plus un sujet académique. C'est un actif stratégique que les labos achètent à prix d'or.

Anthropic, DeepMind, Goodfire : pourquoi la mechanistic interpretability est devenue un moat à 200 M$

En octobre 2024, Goodfire AI a levé 7 millions de dollars en seed auprès de Lightspeed et Menlo Ventures pour commercialiser des outils d'interpretability mécanistique. En 2025, leur série A à 50 M$ a été menée par Menlo. Anthropic a publié sept papers majeurs sur l'interpretability en 2024-2025, dont Mapping the Mind of a Large Language Model. DeepMind a recruté l'équipe historique de Chris Olah avant qu'il ne fonde Anthropic, et continue de publier sur les sparse autoencoders via Gemma Scope.

L'investissement consolidé en mechanistic interpretability dépasse 200 millions de dollars par an chez les trois principaux labos frontier (Anthropic, DeepMind, OpenAI) et leurs satellites (Goodfire, Apollo, Conjecture). C'était un sujet niche en 2022. C'est aujourd'hui un poste budgétaire stratégique.

La thèse : la mechanistic interpretability est devenue un moat parce qu'elle est la seule réponse crédible à la pression réglementaire et la seule manière de différencier un modèle frontier sur un marché qui se commoditise.

Le contexte

Jusqu'en 2023, l'interpretability était considérée comme un domaine académique. Chris Olah et son équipe chez Anthropic publiaient des papers fondateurs (Toy Models of Superposition, Scaling Monosemanticity) avec une trentaine de chercheurs en tout. Le sujet était respecté mais marginal.

Trois facteurs ont changé la donne en 2024 : l'EU AI Act exige des explications de comportement modèle pour les systèmes high-risk ; les contrats gouvernementaux US (Anthropic-Palantir, OpenAI-DoD) imposent une auditabilité technique ; et les premiers cas de jailbreak avec impact business mesuré (DPD, Air Canada) ont fait passer l'interpretability du nice-to-have au must-have assurantiel.

La mécanique économique

Un labo frontier qui peut documenter ce que fait son modèle vend trois choses différentes. D'abord, une réponse réglementaire crédible — Anthropic l'a transformée en argument commercial direct sur les marchés financiers et défense. Ensuite, une garantie de débogage en production : quand un modèle hallucine, on peut localiser le circuit responsable. Enfin, un argument technique de différenciation face à un Llama 4 ou un modèle chinois open-source dont le coût d'inférence converge vers Claude.

Le coût annualisé de ces équipes est devenu massif. Anthropic emploie environ 60 chercheurs sur l'interpretability (estimation publique consolidée). À 350 K$ chargés en moyenne, plus le compute dédié (estimé à 30-50 M$/an pour les expériences de scaling), le poste représente entre 50 et 80 M$ annuels chez Anthropic seul. Multiplié par DeepMind et OpenAI, on arrive aux 200 M$ consolidés.

Les scénarios

Scénario 1 — Commodity. Les techniques d'interpretability se diffusent. Sparse autoencoders, attention head analysis, circuit tracing deviennent disponibles open-source via Gemma Scope, TransformerLens et les drops Anthropic. Dans ce monde, l'interpretability devient un commodity et le moat se dissipe en 18-24 mois. Probabilité : 35 %.

Scénario 2 — Plateforme. Goodfire ou un acteur similaire devient le Stripe de l'interpretability — une couche d'API que tout déployeur de LLM appelle pour expliquer ses outputs. Goodfire a déjà lancé Ember, sa plateforme d'interp. Si elle capte 5 % du marché compliance enterprise (estimé à 2 Md$ en 2027), l'entreprise vaut 1 Md$+. Probabilité : 40 %.

Scénario 3 — Moat profond. Anthropic, DeepMind et un ou deux outsiders gardent un avantage propriétaire de 18 à 24 mois sur les techniques avancées. Le différentiel de capacité justifie une prime tarifaire de 30 à 50 % par rapport aux modèles non interprétables. Anthropic conforte sa position défense / régulé. Probabilité : 25 %.

Notre lecture

Les trois scénarios ne s'excluent pas. La probabilité combinée Plateforme + Moat (65 %) reflète la réalité actuelle : la mechanistic interpretability est l'un des rares vrais moats restants pour les labos frontier face à la commoditisation des LLM. Les VC l'ont compris — d'où la valorisation Goodfire.

Pour un fondateur européen ou francophone, l'opportunité directe est limitée (les budgets sont chez les labos US). L'opportunité indirecte est dans la couche compliance et eval — proposer des audits d'interpretability à destination des entreprises soumises à l'AI Act peut représenter un marché de 100 à 300 M€ en Europe à horizon 2027.

À surveiller

  • Goodfire série B attendue mi-2026. La valorisation indiquera si le marché valide la thèse plateforme.
  • Publications interpretability d'OpenAI. Le silence relatif d'OpenAI sur le sujet contraste avec Anthropic et DeepMind. Une remontée en puissance signalerait que le moat est trop important pour être abandonné.
  • Premier jugement européen citant un défaut d'interpretability dans une décision automatisée. Ce sera le déclencheur d'achat de masse pour les compliance teams.
  • Open-source progress : si les sparse autoencoders Gemma Scope deviennent industriels, le scénario commodity se rapproche.
  • Acquisition de Goodfire ou Apollo par un labo frontier. Verrouillage défensif probable d'ici 18 mois.

L'essentiel : 200 M$ annuels investis aujourd'hui, c'est le prix d'un moat technique et réglementaire que les labos frontier ne peuvent pas se permettre de ne pas payer. La mechanistic interpretability est passée de curiosité académique à actif stratégique en 18 mois. Le prochain Goodfire à fonder en Europe est dans la couche compliance, pas dans la recherche fondamentale — c'est là que la marge est défendable.