Token devient la « bête à avaler l'or » : la puissance de calcul des grands acteurs explose

robot
Création du résumé en cours

Avez-vous remarqué que, ces six derniers mois, le style visuel dans le milieu de l’IA s’est mis à évoluer à une vitesse un peu trop rapide ?

À cette époque l’an dernier, tout le monde faisait la fête pour une chute du prix de la puissance de calcul. Alibaba Cloud menait la danse avec l’annonce : « baisse maximale de 60% ». Puis Tencent Cloud, Huawei Cloud et Baidu Cloud ont tous emboîté le pas. Cette mise en scène était carrément comme une méga promo du 11 novembre. Dans les groupes de fondateurs, on voyait tous les jours quelqu’un poster son relevé : « Regardez, moi j’ai dépensé seulement quelques centimes pour 1 million de Token ! » À ce moment-là, tout le monde pensait que le printemps des startups en IA était arrivé : la puissance de calcul était aussi bon marché que du chou, donc qui n’arriverait pas à construire une application avec un grand modèle ?

Et alors ? Le coup au visage est arrivé trop vite.

Le mois dernier, les choses ont basculé à 180 degrés dans le sens inverse. En l’espace de 10 jours, Google, Amazon, Tencent, Alibaba, Baidu ont tous publié des annonces de hausse des prix. De combien ? En général, entre 30% et 50%. Le plus rude : Tencent Cloud, dont un produit phare a directement augmenté de 400%.

D’un « lâcher de prix façon crash » à une « hausse façon fusée », en moins d’un an. Qu’est-ce qui s’est passé exactement ? Qui pousse les prix vers le haut dans l’ombre ? Et surtout, parmi cette vague de hausses, qui en souffre le plus, et qui se frotte les mains ?

L’an dernier, on « cassait les prix » ; cette année, pourquoi tout le monde augmente collectivement ?

Commençons par un bref rappel de cette « grande pièce de retournement ».

En avril 2025, Alibaba Cloud a lancé le premier gros coup de tonnerre : sur ses produits phares, la baisse des prix maximale atteignait 60%. Ce n’était pas du petit bricolage : c’était du « couper en deux, puis remettre des rabais ». Juste après, JD Cloud a dit : « Baisse tranquille, je te suis. » Tencent Cloud, Huawei Cloud et Baidu Cloud ont suivi. À ce moment-là, la poudre aux yeux dans le marché de la puissance de calcul était partout : la guerre des prix était franchement très animée.

À quoi ressemblaient les slogans de l’époque ? « Rendre l’IA accessible » et « la puissance de calcul pour tous ». Beaucoup de startups y ont vraiment cru, et ont commencé à brûler des Token à grande échelle, à faire tourner des modèles.

Mais le déjeuner gratuit ne dure jamais longtemps.

En janvier 2026, Amazon AWS a fait quelque chose en douce : sans conférence, sans annonce préalable, il a directement relevé d’environ 15% le prix des serveurs EC2. Même si l’ampleur n’a pas l’air énorme, l’impact est énorme : c’est la première hausse de prix dans l’industrie des services cloud depuis près de vingt ans. À noter : au cours des vingt dernières années, les baisses de prix d’AWS ont dépassé les 100 fois ; il n’y a eu que des baisses, jamais de hausses.

Et là, comme si on faisait tomber une rangée de dominos.

Le 11 mars, Tencent Cloud a suivi : au sein de son modèle Tencent HY2.0 Instruct, le prix d’entrée est passé de 0.0008 yuan/1 000 tokens à 0.004505 yuan/1 000 tokens — une hausse de 463%, soit plus de quatre fois. Le 18 mars, Alibaba Cloud a annoncé que les cartes de puissance de calcul augmenteraient de 5% à 34% ; Baidu Intelligent Cloud a également suivi avec une hausse de 5% à 30%. Tous les grands modèles qui étaient auparavant en « test gratuit » (comme GLM 5, MiniMax 2.5, Kimi 2.5) ont terminé « la période de gratuité » et sont passés à la facturation officielle.

D’« une course pour baisser les prix » à « une course pour les augmenter », pourquoi le changement a été aussi rapide ?

En surface, c’est parce que les fournisseurs de cloud n’y arrivent plus. Les puces GPU coûtent de plus en plus cher à acheter, et les factures d’électricité des centres de données représentent de 40% à 60% des coûts d’exploitation. De plus, au second semestre 2025, les puces de stockage ont commencé à augmenter aussi : la pression sur les coûts est bien réelle. Mais la raison plus profonde qui rend la hausse « inévitable », c’est une autre réalité — la puissance de calcul manque vraiment.

Qui « dévore » les Token à une vitesse folle ? La vérité derrière 140 000 milliards

N’avait-on pas dit que la puissance de calcul était en excès ? Comment se fait-il qu’elle ne soit soudain plus suffisante ?

La réponse : les Token sont « consommés » trop vite.

D’après les données divulguées par Liu Liehong, directeur de l’Administration nationale des données, en mars de cette année : d’ici mars 2026, le volume d’appels de Token par jour en Chine a déjà dépassé les 140 000 milliards.

Ce chiffre est-il si énorme ? Voici deux repères :

· Au début de 2024, ce chiffre n’était que de 1.4M. En deux ans, il a été multiplié par plus de mille.

· Fin 2025, ce chiffre était de 100k milliards. Donc, seulement sur les trois derniers mois, il a encore augmenté de 40% : rien que le volume ajouté sur ces trois mois (40 000 milliards) représente 400 fois le volume total de 2024 au début.

Ce n’est pas une croissance linéaire, c’est un tsunami.

Alors, la question : qui consomme les Token de manière frénétique ?

Il y a un seul mot : les agents (Agent).

Depuis l’an dernier, des produits comme OpenClaw (surnommé « l’écrevisse » par la communauté) — un agent open source — sont devenus extrêmement populaires. L’IA est passée d’un robot qui ne fait que « chatter » à un assistant capable de « faire le travail » : réserver des billets d’avion, écrire du code, créer des PPT, analyser des données… Ça sonne vraiment cool, non ? Mais le prix à payer, c’est que pour une tâche simple, un agent consomme 10 à 100 fois plus de Token qu’une simple conversation.

Prenons un exemple : demander à l’IA d’écrire un script de crawler. Si c’est une conversation normale, elle vous donne un bout de code que vous copiez et c’est fini : cela consomme quelques centaines de Token. Mais si c’est un agent, il doit exécuter le code lui-même, gérer les erreurs, déboguer, relancer… Allers-retours, une bonne dizaine de tours : la consommation de Token atteint directement des dizaines de milliers.

Et ne parlons même pas de la génération vidéo, ce « gouffre à crédits ». D’après des analyses, générer une vidéo d’une minute demande environ 10 000 milliards de Token. Et aujourd’hui, avec les modèles vidéo, générer 5 secondes ne vous coûte que quelques centimes à quelques euros — ce n’est pas gagner de l’argent, c’est clairement « perdre de l’argent pour faire du bruit ». Mais comme il y a beaucoup d’utilisateurs, la vidéo, la musique, le code, l’analyse de données… chaque direction « dévore » les Token à fond.

Quand l’offre n’arrive pas à suivre la demande, la puissance de calcul augmente naturellement de prix. Ce n’est pas une conspiration : c’est un déséquilibre brut et frontal entre l’offre et la demande.

League du classement de la puissance de calcul : les grandes entreprises mangent la viande, les petits acteurs n’ont même pas la soupe

Cette hausse des prix, pour différentes personnes, signifie quelque chose de complètement différent.

Pour les fournisseurs de cloud, une hausse de prix est au contraire une bonne nouvelle. Un courtier a fait un calcul : quand Alibaba Cloud augmente ses prix de 1%, sa marge bénéficiaire peut augmenter d’un point de pourcentage. Donc vous observez que la part d’Alibaba Cloud ne baisse pas, elle augmente : elle représente déjà 36% du marché chinois du cloud pour l’IA. Et dans un segment encore plus fin, celui des appels d’IA, Firework Engine (sous Bytes) représente même près de 50% — autrement dit, la moitié des appels de Token en Chine passent par les tuyaux de Firework Engine.

Dans le même temps, les parts de Huawei Cloud et de Tencent Cloud reculent légèrement. L’effet de tête grossit : plus les grandes entreprises deviennent fortes, plus les ressources se concentrent.

Alors, qui est le plus mal loti ?

Les petites et moyennes startups IA, ainsi que les nouveaux venus qui entrent juste sur le marché.

La raison est simple : la hausse des prix augmente directement leurs coûts opérationnels. Quand les Token étaient bon marché, vous pouviez faire des expériences librement, ajuster des modèles sans trop vous soucier de la dépense. Maintenant, les prix ont été multipliés par plusieurs fois, voire par dix : chaque phase d’entraînement, chaque inférence, il faut compter, recompt­er.

Le problème en plus, c’est que les petits acteurs n’ont pas de pouvoir de négociation. Les gros clients peuvent signer des accords pluriannuels avec les fournisseurs de cloud pour verrouiller un prix relativement avantageux. Vous, startup débutante, avec quelques dizaines de milliers de yuan de frais de puissance de calcul par an : qui va vous parler de remise ? Vous devez simplement payer le prix après hausse, tranquillement.

Beaucoup de projets qui avaient initialement prévu de faire des applications IA ont fait un calcul, puis ont simplement mis en pause en silence. Certains autres, déjà en production, soit réduisent leur échelle, soit continuent en s’imposant des pertes et en les portant eux-mêmes. Mais le marché terminal est aussi très compétitif : vous n’osez pas augmenter facilement le prix pour les utilisateurs — le voisin le fournit gratuitement, dès que vous commencez à facturer, tous les utilisateurs partent. Au final, toute la pression sur les coûts doit être avalée par vous-même.

Un professionnel m’a confié, plein de griefs : « Avant, je pensais que la puissance de calcul était bon marché et que le seuil d’entrée pour les startups était bas. Maintenant je me rends compte que le seuil n’a pas baissé : ils te laissent entrer d’abord, puis ferment la porte. »

C’est en fait une compétition de classement impitoyable. Pendant les vingt dernières années, les fournisseurs de cloud ont vécu confortablement grâce à la stratégie « bas prix pour écouler, d’abord occuper le terrain, puis faire du profit ». Mais cette époque est terminée. La puissance de calcul sort officiellement de la période des subventions et entre dans le stade de la tarification commerciale. À l’avenir, la compétition ne sera plus de « qui est le moins cher », mais de savoir qui offre un service plus stable, qui dispose d’un écosystème plus complet, et qui peut aider les entreprises à vraiment tirer profit de chaque part de puissance de calcul.

Et dans cette compétition de classement, les petits acteurs seront très probablement laissés sur le bas-côté.

En regardant le montagnes russes de cette année et un peu plus, on découvre une vérité plutôt cruelle :

Passer de la « puissance de calcul au prix du chou » à la « puissance de calcul au prix d’une fusée », c’est, au fond, un reflet de la manière dont l’industrie de l’IA est passée de la croissance sauvage à la maturité. L’ère du gratuit s’est terminée, et la compétition sur la valeur a commencé. Les modèles économiques qui vivaient grâce aux subventions vont mourir ; et les produits qui ont vraiment de la technologie, des scénarios et des utilisateurs survivront dans un environnement où les coûts de puissance de calcul augmentent, voire survivront encore mieux.

La compétence centrale d’une startup IA n’a jamais été « à quel point la puissance de calcul est bon marché », mais plutôt : qu’est-ce que tu vas en faire.

À l’ère de la puissance de calcul, les Token sont effectivement chers. Mais ce qui est encore plus cher que les Token, c’est l’esprit qui sait comment les utiliser à bon escient.

Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
  • Récompense
  • Commentaire
  • Reposter
  • Partager
Commentaire
Ajouter un commentaire
Ajouter un commentaire
Aucun commentaire
  • Épingler