Автор: Сяо Цзинь
У Кремнієвій долині зараз популярне нове слово: Tokenmaxxing (максимальне використання токенів).
Внутрішньо в Meta та OpenAI інженери почали змагатися у рейтингах споживання AI. За повідомленнями іноземних ЗМІ, навіть один інженер за тиждень витратив 210 мільярдів токенів, що еквівалентно тексту 33 Вікіпедій. Деякі щомісячні рахунки за AI сягають 150 000 доларів.
Інженер Ericsson у Стокгольмі витрачає на Claude більше, ніж отримує зарплату, але рахунок оплачує компанія. Бюджет на токени стає новим видом соціального пакету для інженерів — «так само, як колись безкоштовні закуски або обіди».
Генеральний директор Shopify Тобі Лютке ще у квітні 2025 року опублікував внутрішню пам’ятку, в якій заявив, що «використання AI — базовий стандарт Shopify», і вимагав від команд довести, що AI не може виконати певну роботу, перш ніж залучати нових співробітників, а також включити використання AI у систему оцінки ефективності. Пізніше Meta оголосила, що з 2026 року «вплив AI» офіційно увійде до системи оцінки роботи всіх співробітників.
Коли споживання токенів починає враховуватися у KPI, воно стає сигналом організаційної поведінки.
Одночасно й галузеві сигнали також дуже активні. 16 березня на конференції NVIDIA GTC Хуанг Ренсюн назвав токен «фундаментом епохи AI», заявивши, що він стане «найціннішим товаром». Наступного дня Alibaba оголосила про створення Alibaba Token Hub, керівником якої став CEO Ву Юнмін, і яка орієнтована на «створення, транспортування та застосування токенів».
Зображення: Хуанг Ренсюн на виступі на GTC показав графік співвідношення вартості та доходів токенів, розділивши дата-центри на безкоштовний рівень, середній, високий і преміум, а також показав прогноз, що чіп Vera Rubin принесе у 5 разів більше доходу порівняно з Grace Blackwell.
Рік тому токени були лише технічним показником для розробників. Тепер вони стали мовою для визначення цінності продукту у чипових компаніях, приводом для реорганізації бізнес-груп, а також новим видом соціального пакету та ключовим KPI для інженерів.
Однак рейтинг Tokenmaxxing враховує лише споживання, а не те, скільки реальних задач він виконав.
Саме це — найбільша сліпа зона у сучасній токен-економіці.
210 мільярдів токенів — звучить вражаюче. Але щоб зрозуміти його справжнє значення, потрібно відмовитися від припущення, що токени — це стандартний товар.
Зображення: Глобальний рейтинг споживання токенів Tokscale, відкритий інструмент для відстеження та рейтингу використання токенів, підтримує платформи Claude Code, Cursor, OpenCode, Codex та інші, користувачі можуть подавати дані для глобального ранжування.
Два роки тому ціна на великі моделі була досить простою — базувалася на ціні за вхідні та вихідні токени. Але сьогодні провідні компанії мають явно розподілені цінові рівні, і один і той самий «Token» може коштувати по-різному залежно від умов виклику.
Наприклад, Anthropic встановлює ціну за 1 мільйон токенів: 5 доларів за вхідні, 25 доларів за вихідні. Якщо активувати Prompt Caching, то за 5-хвилинне кешування платитимете 6.25 доларів, за 1-годинне — 10 доларів, а за зчитування кешу — 0.50 доларів. При використанні Batch API ціна зменшується удвічі. Якщо обрати локальне обчислення в США, ціни зростуть ще на 10%. У режимі Fast Price ціни на вхід і вихід зростуть у 6 разів.
Отже, одна й та сама компанія, одна й та сама модель, одна й та сама одиниця «Token» можуть коштувати у кілька разів дорожче залежно від кешування, пакетної обробки, регіону та швидкості.
Реальні витрати — це вже не лише виклики моделі. Поточна цінова політика OpenAI показує, що веб-пошук тепер оплачується окремо: для GPT-4.1, GPT-4o — 10 доларів за тисячу запитів, для GPT-5 — 25 доларів.
Вартість File Search — 2.50 доларів за тисячу запитів, додатково — зберігання векторів по 0.10 долара за ГБ на день, перша ГБ безкоштовна. Контейнери для коду тепер оплачуються окремо: 0.03 долара за 1 ГБ, а для 4 ГБ, 16 ГБ і 64 ГБ — відповідно дорожче. З 31 березня 2026 року ціна перейде на оплату за сесію кожні 20 хвилин.
Крім моделей, тепер окремо оплачується пошук, зчитування, збереження та виконання — ці «додаткові» функції раніше вважалися допоміжними.
Google також рухається у тому ж напрямку. Офіційна ціна Vertex AI з 11 лютого 2026 року включає оплату за Code Execution, Sessions і Memory Bank, і ціни тепер встановлюються за vCPU-годину та Гігабайт-годину пам’яті.
Отже, говорити про «вартість великих моделей» тепер означає враховувати не лише ціну за токен, а й логіку ціноутворення — компанії продають вже цілі комплекти інструментів, здатних працювати, зберігатися, шукатися, викликатися та виконуватися.
Зображення: Скриншот сторінки цін OpenAI, багаторівнева структура оплати (Web Search, File Search, Container тощо) — окремі платіжні позиції.
Якщо дивитися лише на ціну API моделі, токени справді стають дешевшими. Opus від Anthropic з 15 доларів за мільйон токенів знизився до 5 доларів — зменшення у три рази. DeepSeek V3.2 — до 0.28 долара. Google Gemini 2.5 Flash Lite — близько 0.10 долара.
У Китаї ціна ще нижча: за даними OpenRouter, ціна токенів китайських моделей у 6-10 разів менша за закордонних конкурентів. Навіть після підвищення цін на 混元HY2.0 Instruct у Tencent Cloud на понад 460%, ціна за вхідні токени становить приблизно 0.62 долара за мільйон, що менше, ніж у найдешевшого Haiku 4.5 від Anthropic (1 долар), і у п’ять разів менше за Sonnet 4.6.
Зображення: Artificial Analysis підтримує реальний рейтинг LLM, де різні моделі мають значну цінову різницю.
Але загальні витрати на використання AI не знизилися. Три механізми працюють одночасно:
Моделі стали розумнішими, але й «багатшими на слова». Звіт Artificial Analysis показує, що середній обсяг вихідних токенів у推理-моделей у 5.5 разів більший, ніж у не推理-моделей. Anthropic і OpenAI враховують extended thinking у ціні за вихідні токени — чим глибше мислення, тим довше рахунок. Ціна знизилася, але кількість токенів для виконання однієї задачі зросла у кілька разів.
Agent перетворює одноразове споживання токенів у постійне. Це і є глибока причина Tokenmaxxing: інженери не просто вручну «зжирають» токени, їхні AI-агенти працюють цілодобово, автоматично розбиваючи задачі, викликаючи інструменти та самовдосконалюючись. За даними Alibaba Cloud, один Agent споживає у 100-1000 разів більше обчислювальних ресурсів, ніж традиційний чатбот. У 2025 році середньоденне споживання токенів у Китаї перевищило 30 трлн, а у лютому 2026 — досягло 180 трлн.
Вартість виробництва токенів зросла. 18 березня 2026 року Alibaba Cloud і Baidu оголосили про підвищення цін на AI-обчислювальні ресурси та зберігання до 34%. AWS у січні підвищила ціну на машинне навчання приблизно на 15%, а Google Cloud з травня — на інфраструктуру AI.
Експерт у хмарних обчисленнях зазначає: «Ціни на хмарний ринок визначаються попитом і пропозицією, а також витратами. Подальше зростання цін залежить від цінової динаміки всього ланцюга поставок».
GPU, паралельне зберігання, швидкісні мережі, електропостачання — ціни на моделі знижуються, але все, що потрібно для виробництва токенів, зростає. Коли Anthropic випустила Opus 4.6, вони підкреслювали, що «ціна залишається незмінною», натякаючи, що більш потужні можливості компанія сама «з’їдає» витрати.
Інакше кажучи, модель — це двигун, але паливо, паркування та швидкісні платні дороги — все дорожчає.
У підсумку, ці три механізми разом породжують все більш глибоку прірву між «заявленою ціною» токенів і реальними витратами на виконання задач.
Повертаючись до Tokenmaxxing. Рейтинги враховують лише споживання токенів, але не якість результату. Інженер, що за тиждень «зжирає» 33 Вікіпедії токенів, не обов’язково виконав роботу, яка має цінність 33 Вікіпедій.
Великі компанії включають споживання токенів у KPI або використовують його як «соціальний пакет», але чи справді це підвищує продуктивність, чи це просто «показуха»?
Це торкається найглибшої структурної проблеми токен-економіки: у галузі ще не створено ефективних методів вимірювання відношення споживання токенів до завершених задач. Token — це міра витрат, а не результату. Інженер, що витратив 100 тисяч токенів на виконання задачі, і той, що витратив 10 тисяч, — у рейтингу Tokenmaxxing може отримати протилежні місця, хоча результат однаковий.
Генеральний директор Shopify Лютке у своєму меморандумі зазначив: «Деякі колеги вже демонструють у 10 разів більший результат, ніж раніше вважалося можливим», але він не навів конкретних критеріїв.
З’являється новий тип професійної тривоги: щоб не відстати, потрібно демонструвати високий рівень AI-продуктивності через високі витрати токенів. Це — аналогія з початком 2000-х, коли кожна компанія змагалася створити сайт, а у 2010-х — кожен бренд мусив мати додаток: технології стали сигналом, а споживання — індикатором, але справжня цінність залишалася поза увагою.
З іншого боку, ціна на токени знижується, але реальні витрати зростають. Щомісячний рахунок у 15 тисяч доларів, 2100 мільярдів токенів за тиждень, зростаючі витрати на обчислювальні ресурси — Tokenmaxxing уже не безкоштовний. Коли ціна стає високою, різниця між «спалюванням токенів» і «створенням цінності за допомогою токенів» перетворюється з філософської проблеми у фінансову.
Ціна токенів і далі знижується, але головне — хто найефективніше перетворює токени у завершені задачі. Для кожного програміста, кожної компанії, кожного користувача важливо не скільки коштує один мільйон токенів, а скільки він вартий для виконання конкретної задачі.
Ця різниця — найбільша бізнес-можливість і найглибша пастка у новій епосі «розумного» світу, де токени стають новою мірою.