Un matin, en écrivant à ChatGPT pour reformuler un email, vous avez consommé l'équivalent énergétique de deux minutes d'ampoule basse consommation et un quinzième de cuillère à café d'eau. C'est ce qu'affirme Sam Altman, patron d'OpenAI, dans un billet de blog publié en juin 2025. Anodin. Sauf que ChatGPT traite désormais 2,5 milliards de requêtes par jour. Et qu'OpenAI prévoit 14 milliards de dollars de pertes en 2026.
Le paradoxe est saisissant. À l'échelle individuelle, l'intelligence artificielle générative semble presque gratuite — 0,34 watt-heure par requête selon le PDG d'OpenAI lui-même. À l'échelle d'une économie entière, elle représente déjà 15 térawattheures de consommation annuelle en 2025, et pourrait atteindre 347 TWh en 2030 selon le Schneider Electric Sustainability Research Institute. Soit l'équivalent de la production annuelle de 44 réacteurs nucléaires.
Comment expliquer cet écart entre votre facture personnelle et celle des géants de l'IA ? Et surtout : combien coûte vraiment chacune de vos requêtes — pas en watts ou en gouttes d'eau, mais en argent réel, celui qui est aujourd'hui massivement subventionné par les investisseurs ?
Le premier paradoxe : votre requête coûte moins qu'une recherche Google
Pendant longtemps, l'idée dominante voulait qu'une requête ChatGPT consomme dix fois plus qu'une recherche Google. Le chiffre venait d'une étude de l'Université de Californie Riverside publiée en 2023, qui estimait à 2,9 wattheures la consommation d'une requête. Avec 500 ml d'eau pour le refroidissement.
Mais les chiffres ont chuté. Vite. En juin 2025, Sam Altman publie une donnée beaucoup plus modeste : 0,34 Wh par requête, soit ce qu'un four utiliserait en une seconde. Côté eau, il évoque « environ un quinzième de cuillère à café ». Cette efficacité s'explique par des puces spécialisées (Nvidia H100, TPU Google), des optimisations algorithmiques, et le batching massif des requêtes.
Soit moins qu'une recherche Google moderne (~0,3 Wh). L'efficacité unitaire de l'IA s'est massivement améliorée depuis 2023.
À l'unité, c'est dérisoire. Charger un smartphone consomme 15 fois plus d'énergie qu'obtenir une réponse complexe d'une IA. Mais ce calcul individuel masque la réalité agrégée : avec 2,5 milliards de requêtes quotidiennes, ChatGPT consomme 850 mégawattheures par jour, soit 310 GWh par an. C'est l'énergie nécessaire pour alimenter 29 000 foyers américains pendant un an.
Sources : Sam Altman, blog officiel (juin 2025) ; SambaNova Systems (janvier 2025) ; Université de Riverside ; Schneider Electric Sustainability Research Institute (2025).
Le deuxième paradoxe : plus c'est gros, plus c'est cher (à l'inverse de tout)
Si l'efficacité unitaire s'améliore, le prix unitaire des tokens, lui, suit une courbe très différente selon le segment. Voici les tarifs officiels d'avril 2026, pour 1 million de tokens (l'unité de facturation des API) :
| Modèle | Input | Output | Ratio |
|---|---|---|---|
| Gemini Flash-Lite (low-cost) | $0.075 | $0.30 | 4× |
| Grok 4.1 Fast (xAI, agressif) | $0.20 | $0.50 | 2.5× |
| DeepSeek V3.2 (Chine) | $0.28 | $0.42 | 1.5× |
| Gemini 3 Flash | $0.50 | $3.00 | 6× |
| GPT-5.2 | $1.75 | $14 | 8× |
| Gemini 3.1 Pro | $2.00 | $12 | 6× |
| Claude Sonnet 4.6 | $3.00 | $15 | 5× |
| Claude Opus 4.6 | $15 | $75 | 5× |
| GPT-5.2 Pro (premium) | $21 | $168 | 8× |
Une asymétrie saute aux yeux : les tokens de sortie coûtent en moyenne 4 à 8 fois plus chers que ceux d'entrée. C'est le coût économique de la génération autoregressive : produire chaque mot demande au modèle de relire tout ce qu'il a déjà écrit, alors que lire votre prompt ne se fait qu'une fois.
Autre vertige : entre Mistral Nemo ($0.02/M, deux centimes) et GPT-5.2 Pro ($168/M output), il y a un facteur 8 400. Si vous routez 99 % de vos requêtes vers Gemini Flash-Lite et 1 % vers le top, vous économisez 98 % par rapport à un usage tout-premium. Et le résultat reste tout à fait acceptable pour la plupart des tâches.
« Il y a deux ans, faire tourner un LLM phare coûtait 10 dollars par million de tokens d'entrée. Aujourd'hui on a un meilleur modèle pour le quart de ce prix — et un parfaitement adéquat pour le centième. » — TLDL, "LLM API Pricing 2026", février 2026
Le vrai paradoxe : ce que vous payez ne couvre pas le coût
Voici l'élément central de cette enquête. Tous les tarifs publics que vous voyez — votre abonnement ChatGPT à 20€/mois, Claude Pro à 18€, Gemini à 19€ — sont massivement subventionnés. Pas par OpenAI ou Anthropic eux-mêmes : par leurs investisseurs.
Selon des documents internes révélés par The Information en octobre 2024, OpenAI prévoit 14 milliards de dollars de pertes en 2026. Microsoft a inscrit 4,1 milliards de dollars de pertes au troisième trimestre 2026 lié à sa participation de 32,5 % dans OpenAI. Anthropic, plus petit, brûle 2,5 milliards de dollars rien qu'en infrastructure de calcul. Pour 30 milliards de revenus annualisés en mars 2026 — mais avec des dépenses qui suivent.
Les coûts d'infrastructure dépassent les revenus
OpenAI loue ses serveurs Microsoft pour environ 4 milliards de dollars par an, à 1,30 $ l'heure par puce Nvidia A100. C'est une charge fixe colossale qui n'évolue pas avec le prix de votre abonnement.
L'entraînement seul coûte des milliards
Entraîner GPT-3 a coûté 12 millions de dollars. GPT-4, probablement entre 100 et 200 millions. Les modèles 2026 (GPT-5.4, Claude Opus 4.6) franchissent vraisemblablement le milliard. Ces coûts sont amortis sur des milliards de requêtes — mais à perte.
Project Stargate : 500 milliards d'engagements
Annoncé en janvier 2025 par Donald Trump, le projet Stargate engage OpenAI, Softbank et Oracle pour 500 milliards de dollars d'infrastructure IA. Sam Altman parle même de 1,4 trillion d'investissements nécessaires d'ici 2030, avec 30 GW de capacité datacenter.
Cette équation ne tient que parce que les marchés financiers acceptent de financer des pertes massives en pariant sur une rentabilité future. OpenAI ne prévoit pas de bénéfices avant 2029. Anthropic, plus tôt mais sans certitude. Tant que cette manne dure, votre abonnement reste subventionné. Le jour où elle se tarit — bulle, crise, désillusion sur les revenus IA — les prix devront refléter la réalité économique.
« OpenAI est en train de s'effondrer en temps réel malgré sa valorisation de 500 milliards de dollars. Aucune start-up dans l'histoire n'a jamais fonctionné avec de telles pertes. » — George Noble, investisseur chevronné, cité par Bloomberg (octobre 2025)
Pourquoi les prix vont (probablement) augmenter
Trois forces convergent vers une hausse possible des tarifs IA dans les 18 prochains mois :
1. La pression financière des actionnaires
Quand OpenAI prépare son IPO pour le quatrième trimestre 2026 à une valorisation cible de 1 000 milliards, les marchés exigeront des marges. Anthropic, avec 380 milliards de valorisation, suit la même logique. Le moyen le plus rapide d'améliorer la rentabilité ? Augmenter les prix sur les modèles premium tout en gardant les modèles d'appel attractifs. C'est exactement ce qu'on observe : GPT-5.2 Pro à 168 $/M output est huit fois plus cher que GPT-5.2 standard, alors qu'il était impensable il y a deux ans de facturer un modèle 168 dollars le million de tokens.
2. La pénurie de mémoire DDR5 et HBM
Samsung, SK Hynix et Micron — qui contrôlent 95 % de la production mondiale de DRAM — ont massivement réorienté leurs lignes vers la mémoire HBM (utilisée dans les GPU IA), bien plus rentable. Résultat : la DDR5 grand public a quadruplé de prix depuis fin 2025, et Micron annonce être « sold out pour 2026 ». Cette pénurie touche directement le coût de fabrication des cartes graphiques utilisées dans les datacenters d'inférence IA.
3. La règle cachée des 200 000 tokens chez Claude
Anthropic applique depuis 2026 une règle peu médiatisée : au-delà de 200 000 tokens d'entrée, le tarif double. Sonnet 4.6 passe de 3 $ à 6 $/M input, et de 15 $ à 22,50 $/M output. Une astuce de tarification qui permet d'augmenter discrètement les revenus sans afficher une hausse globale. OpenAI applique aussi un surcoût de 10 % sur le routage régional (data residency).
Trois scénarios pour 2026-2027
L'avenir des prix IA n'est pas linéaire. Trois forces s'opposent : la pression financière (hausse), la concurrence DeepSeek/Grok (baisse), et l'optimisation algorithmique (baisse). Voici les scénarios crédibles :