Enquête · 28 avril 2026 · Lecture 9 min

Le vrai prix d'une
requête IA

Pourquoi les 20€ que vous payez chaque mois pour ChatGPT ne reflètent pas la valeur réelle de ce que vous consommez. Et pourquoi ça pourrait changer brutalement.

Un matin, en écrivant à ChatGPT pour reformuler un email, vous avez consommé l'équivalent énergétique de deux minutes d'ampoule basse consommation et un quinzième de cuillère à café d'eau. C'est ce qu'affirme Sam Altman, patron d'OpenAI, dans un billet de blog publié en juin 2025. Anodin. Sauf que ChatGPT traite désormais 2,5 milliards de requêtes par jour. Et qu'OpenAI prévoit 14 milliards de dollars de pertes en 2026.

Le paradoxe est saisissant. À l'échelle individuelle, l'intelligence artificielle générative semble presque gratuite — 0,34 watt-heure par requête selon le PDG d'OpenAI lui-même. À l'échelle d'une économie entière, elle représente déjà 15 térawattheures de consommation annuelle en 2025, et pourrait atteindre 347 TWh en 2030 selon le Schneider Electric Sustainability Research Institute. Soit l'équivalent de la production annuelle de 44 réacteurs nucléaires.

Comment expliquer cet écart entre votre facture personnelle et celle des géants de l'IA ? Et surtout : combien coûte vraiment chacune de vos requêtes — pas en watts ou en gouttes d'eau, mais en argent réel, celui qui est aujourd'hui massivement subventionné par les investisseurs ?

Le premier paradoxe : votre requête coûte moins qu'une recherche Google

Pendant longtemps, l'idée dominante voulait qu'une requête ChatGPT consomme dix fois plus qu'une recherche Google. Le chiffre venait d'une étude de l'Université de Californie Riverside publiée en 2023, qui estimait à 2,9 wattheures la consommation d'une requête. Avec 500 ml d'eau pour le refroidissement.

Mais les chiffres ont chuté. Vite. En juin 2025, Sam Altman publie une donnée beaucoup plus modeste : 0,34 Wh par requête, soit ce qu'un four utiliserait en une seconde. Côté eau, il évoque « environ un quinzième de cuillère à café ». Cette efficacité s'explique par des puces spécialisées (Nvidia H100, TPU Google), des optimisations algorithmiques, et le batching massif des requêtes.

Consommation par requête ChatGPT en 2026 0,34 Wh

Soit moins qu'une recherche Google moderne (~0,3 Wh). L'efficacité unitaire de l'IA s'est massivement améliorée depuis 2023.

À l'unité, c'est dérisoire. Charger un smartphone consomme 15 fois plus d'énergie qu'obtenir une réponse complexe d'une IA. Mais ce calcul individuel masque la réalité agrégée : avec 2,5 milliards de requêtes quotidiennes, ChatGPT consomme 850 mégawattheures par jour, soit 310 GWh par an. C'est l'énergie nécessaire pour alimenter 29 000 foyers américains pendant un an.

Sources : Sam Altman, blog officiel (juin 2025) ; SambaNova Systems (janvier 2025) ; Université de Riverside ; Schneider Electric Sustainability Research Institute (2025).

Le deuxième paradoxe : plus c'est gros, plus c'est cher (à l'inverse de tout)

Si l'efficacité unitaire s'améliore, le prix unitaire des tokens, lui, suit une courbe très différente selon le segment. Voici les tarifs officiels d'avril 2026, pour 1 million de tokens (l'unité de facturation des API) :

ModèleInputOutputRatio
Gemini Flash-Lite (low-cost)$0.075$0.30
Grok 4.1 Fast (xAI, agressif)$0.20$0.502.5×
DeepSeek V3.2 (Chine)$0.28$0.421.5×
Gemini 3 Flash$0.50$3.00
GPT-5.2$1.75$14
Gemini 3.1 Pro$2.00$12
Claude Sonnet 4.6$3.00$15
Claude Opus 4.6$15$75
GPT-5.2 Pro (premium)$21$168

Une asymétrie saute aux yeux : les tokens de sortie coûtent en moyenne 4 à 8 fois plus chers que ceux d'entrée. C'est le coût économique de la génération autoregressive : produire chaque mot demande au modèle de relire tout ce qu'il a déjà écrit, alors que lire votre prompt ne se fait qu'une fois.

Autre vertige : entre Mistral Nemo ($0.02/M, deux centimes) et GPT-5.2 Pro ($168/M output), il y a un facteur 8 400. Si vous routez 99 % de vos requêtes vers Gemini Flash-Lite et 1 % vers le top, vous économisez 98 % par rapport à un usage tout-premium. Et le résultat reste tout à fait acceptable pour la plupart des tâches.

« Il y a deux ans, faire tourner un LLM phare coûtait 10 dollars par million de tokens d'entrée. Aujourd'hui on a un meilleur modèle pour le quart de ce prix — et un parfaitement adéquat pour le centième. » — TLDL, "LLM API Pricing 2026", février 2026

Le vrai paradoxe : ce que vous payez ne couvre pas le coût

Voici l'élément central de cette enquête. Tous les tarifs publics que vous voyez — votre abonnement ChatGPT à 20€/mois, Claude Pro à 18€, Gemini à 19€ — sont massivement subventionnés. Pas par OpenAI ou Anthropic eux-mêmes : par leurs investisseurs.

Selon des documents internes révélés par The Information en octobre 2024, OpenAI prévoit 14 milliards de dollars de pertes en 2026. Microsoft a inscrit 4,1 milliards de dollars de pertes au troisième trimestre 2026 lié à sa participation de 32,5 % dans OpenAI. Anthropic, plus petit, brûle 2,5 milliards de dollars rien qu'en infrastructure de calcul. Pour 30 milliards de revenus annualisés en mars 2026 — mais avec des dépenses qui suivent.

1

Les coûts d'infrastructure dépassent les revenus

OpenAI loue ses serveurs Microsoft pour environ 4 milliards de dollars par an, à 1,30 $ l'heure par puce Nvidia A100. C'est une charge fixe colossale qui n'évolue pas avec le prix de votre abonnement.

2

L'entraînement seul coûte des milliards

Entraîner GPT-3 a coûté 12 millions de dollars. GPT-4, probablement entre 100 et 200 millions. Les modèles 2026 (GPT-5.4, Claude Opus 4.6) franchissent vraisemblablement le milliard. Ces coûts sont amortis sur des milliards de requêtes — mais à perte.

3

Project Stargate : 500 milliards d'engagements

Annoncé en janvier 2025 par Donald Trump, le projet Stargate engage OpenAI, Softbank et Oracle pour 500 milliards de dollars d'infrastructure IA. Sam Altman parle même de 1,4 trillion d'investissements nécessaires d'ici 2030, avec 30 GW de capacité datacenter.

Cette équation ne tient que parce que les marchés financiers acceptent de financer des pertes massives en pariant sur une rentabilité future. OpenAI ne prévoit pas de bénéfices avant 2029. Anthropic, plus tôt mais sans certitude. Tant que cette manne dure, votre abonnement reste subventionné. Le jour où elle se tarit — bulle, crise, désillusion sur les revenus IA — les prix devront refléter la réalité économique.

« OpenAI est en train de s'effondrer en temps réel malgré sa valorisation de 500 milliards de dollars. Aucune start-up dans l'histoire n'a jamais fonctionné avec de telles pertes. » — George Noble, investisseur chevronné, cité par Bloomberg (octobre 2025)

Pourquoi les prix vont (probablement) augmenter

Trois forces convergent vers une hausse possible des tarifs IA dans les 18 prochains mois :

1. La pression financière des actionnaires

Quand OpenAI prépare son IPO pour le quatrième trimestre 2026 à une valorisation cible de 1 000 milliards, les marchés exigeront des marges. Anthropic, avec 380 milliards de valorisation, suit la même logique. Le moyen le plus rapide d'améliorer la rentabilité ? Augmenter les prix sur les modèles premium tout en gardant les modèles d'appel attractifs. C'est exactement ce qu'on observe : GPT-5.2 Pro à 168 $/M output est huit fois plus cher que GPT-5.2 standard, alors qu'il était impensable il y a deux ans de facturer un modèle 168 dollars le million de tokens.

2. La pénurie de mémoire DDR5 et HBM

Samsung, SK Hynix et Micron — qui contrôlent 95 % de la production mondiale de DRAM — ont massivement réorienté leurs lignes vers la mémoire HBM (utilisée dans les GPU IA), bien plus rentable. Résultat : la DDR5 grand public a quadruplé de prix depuis fin 2025, et Micron annonce être « sold out pour 2026 ». Cette pénurie touche directement le coût de fabrication des cartes graphiques utilisées dans les datacenters d'inférence IA.

3. La règle cachée des 200 000 tokens chez Claude

Anthropic applique depuis 2026 une règle peu médiatisée : au-delà de 200 000 tokens d'entrée, le tarif double. Sonnet 4.6 passe de 3 $ à 6 $/M input, et de 15 $ à 22,50 $/M output. Une astuce de tarification qui permet d'augmenter discrètement les revenus sans afficher une hausse globale. OpenAI applique aussi un surcoût de 10 % sur le routage régional (data residency).

Trois scénarios pour 2026-2027

L'avenir des prix IA n'est pas linéaire. Trois forces s'opposent : la pression financière (hausse), la concurrence DeepSeek/Grok (baisse), et l'optimisation algorithmique (baisse). Voici les scénarios crédibles :

📈
Hausse
~ 35 % de probabilité
Bulle IA tient, exigences IPO, pénurie DRAM continue, modèles plus gros (1M+ tokens). Prix tier premium ×1,5 à ×3.
📊
Stabilisation
~ 40 % de probabilité
Concurrence DeepSeek/Grok contient les hausses sur le mid-tier. Premium s'envole, low-cost reste agressif. Bipolarisation forte.
📉
Baisse
~ 25 % de probabilité
Algorithmes plus efficaces (TurboQuant Google), open-source mature (Llama 4, Mistral), si la bulle éclate. Prix divisés par 2 à 5.
CALCULATEUR PERSONNALISÉ

Combien coûtez-vous réellement
à OpenAI / Anthropic / Google ?

Renseignez votre usage et découvrez le coût réel de vos requêtes — celui que vous payez, mais aussi celui que vous devriez payer si l'IA n'était pas subventionnée.

Question 1
Combien de fois utilisez-vous l'IA par semaine ?
Requêtes par semaine 35
Question 2
Quel modèle utilisez-vous principalement ?
Claude Sonnet 4.63$ / 15$ par M tokens
GPT-5.21.75$ / 14$
Gemini 3.1 Pro2$ / 12$
Claude Opus 4.615$ / 75$
GPT-5.2 Pro21$ / 168$
Gemini Flash-Lite0.075$ / 0.30$
Question 3
Quel type de requêtes faites-vous principalement ?
Questions courtes~ 200 tokens entrée / 300 sortie
Conversations / brainstorm~ 800 / 1500
Analyse de documents longs~ 5000 / 2500
Code / programmation~ 1500 / 3000
Question 4
Vos conversations durent en moyenne...
Messages par conversation 5
Coût mensuel réel de votre usage IA
— $
Configurez vos paramètres pour voir le résultat
— Wh
Électricité / mois
💧
— mL
Eau / mois
🌍
— g
CO₂ / mois
📊 Le vrai coût pour OpenAI / Anthropic
Ce que vous payez (abonnement)~ 20 $ / mois
Coût direct API estimé— $ / mois
Coût réel non-subventionné (×3)— $ / mois
Subvention par les investisseurs— $ / mois

Conclusion : profitez du moment, mais préparez-vous

L'IA générative en 2026 vit un moment unique de l'histoire technologique : une période où le prix utilisateur ne reflète absolument pas le coût économique réel. Comme Uber a subventionné les courses pendant des années, comme Netflix a perdu de l'argent sur chaque abonné pendant une décennie, OpenAI et Anthropic font le pari que la croissance d'usage compensera plus tard les pertes massives d'aujourd'hui.

La question n'est plus de savoir si les prix vont s'ajuster, mais comment. Bipolarisation entre un mid-tier toujours abordable (poussé par DeepSeek, Grok, Mistral) et un premium qui s'envole (GPT-5.2 Pro déjà à 168 $/M output). Hausses cachées via la règle des 200 000 tokens chez Claude. Surcoût régional. Accès prioritaire pour les entreprises qui paient plus cher.

Quatre conseils concrets pour optimiser dès maintenant : activer le cache prompt (-90 % sur les tokens d'entrée répétés), utiliser le batching quand c'est possible (-50 %), choisir le bon modèle pour la bonne tâche (90 % en Gemini Flash + 10 % en Claude Sonnet = -86 % vs tout-Sonnet), et raccourcir les conversations (chaque message rejoue toute l'historique). Une petite équipe de 6 développeurs, Branch8, a divisé sa facture Claude Code par 3,5 — passant de 2 400 $ à 680 $ par mois — uniquement avec ces optimisations.

Et surtout : profitez de l'instant. C'est probablement la dernière fois de votre vie où vous pourrez accéder à une intelligence artificielle aussi puissante pour 20 € par mois.

📚 Sources et références

Questions fréquentes

Combien coûte vraiment une requête ChatGPT en 2026 ?
Selon Sam Altman (juin 2025), une requête ChatGPT consomme environ 0,34 Wh d'électricité et 1/15ème de cuillère à café d'eau. Mais le coût réel pour OpenAI dépasse largement le prix facturé à l'utilisateur : OpenAI prévoit 14 milliards de dollars de pertes en 2026 selon des documents internes révélés par The Information. Le prix utilisateur est massivement subventionné par les investisseurs.
Pourquoi le prix des tokens IA pourrait augmenter en 2026 ?
Trois forces pèsent sur les prix : (1) La pression financière — OpenAI brûle 14 milliards par an, Anthropic 2,5 milliards rien qu'en compute. (2) L'infrastructure : Sam Altman parle de 1,4 trillion de dollars d'investissements nécessaires d'ici 2030. (3) La pénurie DDR5 et HBM. Schneider Electric prévoit que l'IA consommera 347 TWh en 2030, soit 23× plus qu'en 2025.
GPT-5.2 Pro est 8 fois plus cher en sortie qu'en entrée — pourquoi ?
Le ratio output/input est partout de 3 à 8× sur les LLM. La génération autoregressive est plus coûteuse que la lecture : alignement, sampling de température, beam search — chaque token de sortie consomme bien plus de calcul GPU qu'un token d'entrée. GPT-5.2 Pro affiche 21$/M input et 168$/M output. Claude Opus 4.6 : 15$/75$. La règle 2026 : ce qui coûte cher, c'est ce que l'IA produit, pas ce que vous lui envoyez.
Comment réduire le coût de mes requêtes IA ?
Quatre leviers concrets : (1) Cache prompts : -90% sur les tokens d'entrée répétés (DeepSeek, Claude, GPT). (2) Batching : -50% via les API batch d'OpenAI et Anthropic. (3) Bon modèle pour la tâche : routage intelligent (90% Gemini Flash + 10% Claude Sonnet = -86% vs Sonnet pur). (4) Conversations courtes : chaque message rejoue toute la conversation (no memory), donc un long fil = des milliers de tokens à chaque échange.
L'IA va-t-elle vraiment consommer autant d'électricité que 44 réacteurs nucléaires ?
C'est la projection du Schneider Electric Sustainability Research Institute pour 2030 : 347 TWh par an pour l'IA générative seule, vs 15 TWh en 2025. Soit une multiplication par 23 en cinq ans. Cette projection suppose que l'usage continue de croître au rythme actuel et que les optimisations algorithmiques ne compensent pas suffisamment l'effet rebond (paradoxe de Jevons). Si une nouvelle technologie comme TurboQuant de Google (compression KV cache, -6× la mémoire) se généralise, ces chiffres pourraient être revus à la baisse.
Pourquoi OpenAI perd autant d'argent en 2026 ?
OpenAI dépense environ 4 milliards de dollars par an juste pour louer ses serveurs Microsoft (1,30 $ l'heure par puce Nvidia A100). L'entraînement de modèles comme GPT-5.4 dépasse probablement le milliard. Les coûts de personnel sont passés de 700 millions en 2024 à 2 milliards en 2025. Pour un revenu annualisé de 24 milliards, les pertes restent massives. Microsoft a inscrit 4,1 milliards de pertes sur sa participation au Q3 2026. Le seuil de rentabilité n'est pas attendu avant 2029-2030.
Quel modèle IA choisir pour optimiser le rapport qualité/prix en 2026 ?
Pour les tâches simples (classification, extraction) : Gemini Flash-Lite à 0,075 $ / 0,30 $ par million de tokens. Pour le mid-tier polyvalent : DeepSeek V3.2 (0,28 $ / 0,42 $) ou Gemini 3 Flash (0,50 $ / 3 $). Pour la qualité maximale sans tomber dans le tier extrême : GPT-5.2 (1,75 $ / 14 $) ou Claude Sonnet 4.6 (3 $ / 15 $). Évitez GPT-5.2 Pro (21 $ / 168 $) sauf besoin spécifique de raisonnement profond — le rapport qualité/prix se dégrade massivement.