Tous les articles
Newsletter·26 juin 2026·6 min

L'IA à l'ère des tokens : après la hype, la facture

Par Pierre Wilmet

La nouvelle formule d'abonnement pour l'IA : le Token

Le 1er juin 2026, GitHub Copilot a basculé l'ensemble de ses offres vers une facturation à l'usage. On passe des « premium requests » aux GitHub AI Credits. Ceux-ci sont comptés sur les tokens réellement consommés en entrée, en sortie et en cache. Si les prix d'abonnement de base n'ont pas bougé, la quantité d'usage incluse a été drastiquement réduite. Et surtout, la sécurité qui permettait, une fois le quota épuisé, de revenir sur le modèle gratuit n'existe plus.

La situation est telle que sur Reddit et X, certains développeurs parlent de « Tokenpocalypse ». Ils publient des projections de facture qui passent de quelques dizaines à plusieurs milliers de dollars par mois. Fantasmés ou non, ces chiffres nous disent une chose : l'IA a un prix, et celui-ci n'était pas représentatif jusqu'ici.

L'enjeu est énorme. Comme le kilowattheure pour l'électricité, le token devient l'unité de consommation de l'IA. Ce qui fait peur, ce n'est pas le prix des tokens, mais ce qu'ils disent du coût réel de l'IA.

Un token, c'est quoi ?

Pour que l'IA puisse lire un texte, celui-ci va être décomposé en fragments : les tokens. Il peut s'agir d'un mot, d'une partie de mot, d'une ponctuation, d'un espace… Ces tokens forment un vocabulaire qui sera utilisé par l'IA pour lire, prédire et générer du texte. Un mot particulièrement complexe et/ou rare sera composé de plus de tokens qu'un mot simple ou très courant. Cela se répercutera logiquement sur son prix.

Quand vous utilisez une IA, trois types de tokens vont entrer en jeu :

  • Les tokens d'entrée : ce que vous donnez au modèle. Votre question, ainsi que tout ce qui la compose : le texte, le contexte, les fichiers éventuels. Ils traduisent tout ce que vous envoyez à l'IA.
  • Les tokens de sortie : l'inverse des tokens d'entrée : ils traduisent tous les éléments de la réponse de l'IA (texte, tableur, image…).
  • Les tokens en cache : le contexte de vos précédents échanges avec l'IA, déjà traité et réutilisé au besoin. En général moins chers, mais pas gratuits.

C'est ce qui fait la principale différence entre la facturation au token et la facturation à la requête : deux requêtes ne se valent pas en termes de tokens. Certaines requêtes très complexes vont coûter 100 fois plus cher que d'autres. Et chaque token consommé par le modèle sera facturé.

Pourquoi ce changement aujourd'hui ?

En un an, Copilot a énormément évolué. D'un simple outil de complétion de code, il s'est transformé en plateforme agentique capable d'analyser un dépôt, de modifier plusieurs fichiers, de produire des pull requests, de faire des revues de code ou encore d'enchaîner des étapes.

C'est pour ça que le modèle économique n'était plus viable : la différence entre la quantité de tokens consommée par une suggestion de ligne de code et celle consommée par une session agentique est de plus en plus grande. C'est encore plus marqué dans le cas des tokens d'entrée car l'agent recharge du contexte à chaque étape.

Il ne s'agit que d'un exemple parmi d'autres. La facture dépendant du comportement des agents, et ceux-ci étant de plus en plus autonomes, les intentions de l'utilisateur ont de moins en moins d'impact sur celle-ci.

La précision « à l'aveugle »

Personne ne conteste la facturation au token. La logique est évidente et la consommation devient mesurable ; on peut optimiser les prompts, choisir le modèle le plus adéquat à nos besoins, réduire le contexte inutile… Tandis que les fournisseurs trouvent une alternative à deux mauvaises options : brider tous les utilisateurs ou voir les coûts grimper plus vite que les revenus.

Le revers de la pièce, c'est que la facture devient imprévisible : personne ne sait à l'avance combien de tokens une tâche va consommer. Même s'il est assez simple de tirer de grandes lignes pour écrire des prompts économiques, on n'est jamais à l'abri d'une mauvaise piste explorée par l'agent, de relances d'étapes inutiles, ou de trop de fichiers lus.

Le problème, c'est que si chaque itération a un coût, on hésite à expérimenter. Pourtant une part importante de la valeur de l'IA vient justement de l'exploration. Le risque d'une dépense inutile peut tuer l'envie de poser des questions imparfaites, de demander une alternative ou de faire relire un raisonnement.

Et pour les équipes techniques ?

On passe de la question « quel modèle est le plus efficace pour une tâche donnée ? » à « quel modèle donnera la réponse la plus pertinente, au prix le plus pertinent, avec le moins de marge d'erreur possible ? »

Il y a donc trois réflexes importants à avoir :

D'abord, adapter le modèle à la tâche. Reformuler un message d'erreur ou générer un test basique ne réclame pas le modèle le plus puissant. Une analyse d'architecture ou une migration critique, si.

Ensuite, traiter le contexte comme un actif. Envoyer les bons fichiers, les bons logs et les bons changements récents produit un meilleur résultat avec moins de tokens qu'envoyer tout un dépôt « au cas où ».

Enfin, piloter la consommation comme on pilote déjà le cloud. On voit émerger des pratiques d'« AI FinOps » avec des budgets par équipe, des alertes, de la sélection automatique du modèle, de la mise en cache du contexte, des plafonds, des audits, des tableaux de bord… Le sujet n'est plus seulement technique mais financier, opérationnel et managérial.

Quid de la suite ?

Avant tout, la facturation au token conscientise l'utilisation des IA. À court terme, elle va pousser les utilisateurs à mieux utiliser leurs tokens, leurs prompts et les différents modèles à leur disposition. À moyen terme, les produits vont intégrer davantage d'optimisations automatiques : réduction de contexte, sélection dynamique du modèle, estimation du coût avant lancement, etc.

On sort de la phase expérimentale pour entrer dans une phase plus raisonnée et industrielle ; on va chercher le meilleur rapport coût / qualité de la réponse.

Le token est donc plus qu'une unité technique : c'est une nouvelle unité de décision et une nouvelle ligne de coût qu'une entreprise ne peut plus ignorer.

La question qu'on vous laisse : préféreriez-vous payer l'IA à l'usage réel (et passer du temps à réfléchir à chaque prompt), ou un forfait prévisible (dont le prix servira en partie à financer les usages des autres) ?

Recevez la prochaine édition par email

De temps en temps, nos notes sur l'IA, l'outillage dev et le travail bien fait. Pas de spam, désabonnement à tout moment.