OpenAI, Anthropic, Google : la guerre des modeles se joue sur les marges, pas sur les benchmarks

Les tarifs API des LLM ont chute de 80 % en 18 mois. Analyse des couts d'inference et des marges reelles d'OpenAI, Anthropic et Google.

OpenAI, Anthropic, Google : la guerre des modeles se joue sur les marges, pas sur les benchmarks
L'essentiel : La competition entre les trois geants des modeles de langage ne se decide plus sur la qualite des reponses, mais sur le prix du token. Avec des baisses de tarifs de 80 % en dix-huit mois, la rentabilite de l'inference devient le veritable champ de bataille. Seuls les acteurs capables de maitriser leur cout au token survivront a cette guerre d'usure.

Une guerre de prix qui comprime les marges

En janvier 2024, OpenAI facturait le million de tokens en sortie sur GPT-4 Turbo a 30 dollars. Dix-huit mois plus tard, GPT-4o propose des performances comparables pour 5 dollars le million de tokens en sortie. Cette chute de 83 % n'est pas un geste commercial : c'est une strategie deliberee pour verrouiller le marche des API avant que la concurrence ne s'installe durablement.

Anthropic a suivi une trajectoire similaire. Claude 3.5 Sonnet, son modele phare, est facture 3 dollars le million de tokens en entree et 15 dollars en sortie. Mais le lancement de Claude 3.5 Haiku a 0,25 dollar en entree a signale une volonte claire : occuper le segment des appels a fort volume et faible marge. Le marche mondial de l'inference IA, estime a 12,6 milliards de dollars en 2025 par Grand View Research, est devenu un terrain ou chaque fraction de centime compte.

Google, de son cote, a joue la carte de l'agressivite tarifaire des le lancement de Gemini 1.5 Flash. A 0,075 dollar le million de tokens en entree, le modele casse les prix de maniere structurelle. La firme de Mountain View peut se le permettre : elle controle ses propres TPU, son infrastructure reseau et ses datacenters. Ce niveau d'integration verticale lui confere un avantage de cout que ni OpenAI ni Anthropic ne peuvent repliquer a court terme.

Le cout reel de l'inference : au-dela du prix affiche

Pour comprendre la dynamique concurrentielle, il faut decomposer le cout d'inference d'un modele de grande taille. Trois postes dominent : le materiel (GPU ou TPU), l'electricite et la bande passante memoire. Sur un cluster de GPU H100, le cout brut d'inference pour un modele de 70 milliards de parametres se situe entre 0,50 et 1,20 dollar le million de tokens, selon le taux d'utilisation des machines.

OpenAI, qui depend massivement de Microsoft Azure pour son infrastructure, reverse une part significative de ses revenus a son partenaire. Selon les termes de leur accord, Microsoft recoit 75 % des benefices d'OpenAI jusqu'au remboursement de son investissement de 13 milliards de dollars. Cette structure financiere signifie qu'OpenAI opere avec des marges nettes considerablement plus faibles que ce que ses tarifs API pourraient laisser supposer.

Anthropic, financee a hauteur de 8 milliards de dollars par Amazon et Google, fait face a un dilemme comparable. L'entreprise utilise massivement AWS pour son inference, ce qui cree une dependance structurelle envers son principal investisseur. Chaque dollar facture a un client API transite en partie vers les caisses d'Amazon Web Services.

La strategie des modeles a plusieurs niveaux

Les trois acteurs ont adopte une approche identique : proposer une gamme de modeles a prix echelonnes. OpenAI dispose de GPT-4o (premium), GPT-4o Mini (milieu de gamme) et envisage des offres encore plus legeres. Anthropic decline Claude en versions Opus, Sonnet et Haiku. Google propose Gemini Ultra, Pro et Flash.

Cette stratification n'est pas anodine. Elle permet de capturer la valeur sur l'ensemble du spectre d'utilisation. Les cas d'usage simples — classification, extraction de donnees, reformulation — migrent vers les modeles economiques. Les taches complexes — raisonnement juridique, analyse financiere, generation de code avance — justifient encore les tarifs premium.

Le danger pour les fournisseurs est la commoditisation par le bas. Si les modeles economiques deviennent suffisamment performants pour couvrir 80 % des cas d'usage entreprise, le segment premium se retrouve marginalise. Or, c'est precisement sur ce segment que les marges sont les plus confortables.

Qui peut reellement gagner de l'argent ?

A ce stade, seul Google dispose d'un modele economique structurellement viable pour l'inference a grande echelle. La raison est simple : l'entreprise ne paie pas de loyer sur son infrastructure. Ses TPU v5e, concus en interne, offrent un rapport performance-cout superieur aux GPU Nvidia pour les taches d'inference. Et chaque requete traitee sur Gemini alimente l'ecosysteme Google Cloud, generant des revenus additionnels.

OpenAI, malgre ses 4 milliards de dollars de revenus annualises, brule encore plus de tresorerie qu'elle n'en genere. Le cout d'entrainement de chaque nouveau modele se chiffre en centaines de millions de dollars, et l'inference quotidienne pour ChatGPT consomme des ressources massives. La conversion vers la rentabilite suppose soit une augmentation drastique des prix — impensable dans le contexte concurrentiel actuel — soit une reduction du cout unitaire d'inference par un facteur 3 a 5.

Anthropic, valorisee a 60 milliards de dollars lors de son dernier tour de table, n'a pas communique de chiffre d'affaires public. Les estimations du secteur situent ses revenus annualises entre 800 millions et 1,2 milliard de dollars. L'ecart entre cette base de revenus et la valorisation implique que les investisseurs parient sur une croissance rapide du marche API entreprise.

Les acteurs open source comme variable d'ajustement

Meta, avec Llama 3.1, et Mistral, avec ses modeles ouverts, ajoutent une pression supplementaire sur les prix. Un modele open source deploye sur infrastructure propre peut revenir a 0,10 dollar le million de tokens, soit 50 fois moins que GPT-4o en sortie. Pour les entreprises disposant d'equipes techniques solides, l'auto-hebergement devient une option credible.

Cette dynamique force les fournisseurs proprietaires a justifier leur premium par des elements que l'open source ne peut pas facilement repliquer : fiabilite de l'API, garanties de conformite, support entreprise et mises a jour continues. La valeur se deplace du modele lui-meme vers l'ecosysteme de services qui l'entoure.

A surveiller

Trois indicateurs meritent votre attention dans les trimestres a venir. Premierement, l'evolution du prix moyen par token sur les API des trois fournisseurs : toute stabilisation signalerait un plancher de rentabilite. Deuxiemement, les investissements en puces proprietaires — le projet Stargate d'OpenAI et les TPU v6 de Google redessineront les structures de cout. Troisiemement, la part de marche des modeles open source dans les deploiements entreprise : si elle depasse 30 %, le modele API pur pourrait se retrouver sous pression existentielle.