На лимит «три слова hello» — куда делся ваш лимит для Claude Code? Кэш-ошибка, растянувшаяся на 28 дней, и официальный ответ, который призывает «расходовать экономнее»

Question

Оригинальный заголовок: Три фразы «hello» — и лимит: куда делась ваша квота для Claude Code? Кэш-баг, растянувшийся на 28 дней, и официальная реакция, которая просит вас «расходовать экономно»

Оригинальный автор: LydungBlockBeats

Оригинальный источник:

Перепечатка: Mars Finance

4-17%. Это коэффициент чтения prompt cache для Claude Code за прошлый месяц. Нормальный уровень — 97-99%.

Это означает, что когда вы возобновляете ранее начатую сессию, Claude Code не переиспользует контекст, который был обработан раньше, а каждый раз заново обрабатывает весь текст с нуля — и расходует лимит в 10–20 раз больше, чем в обычном случае. Вы думаете, что продолжаете диалог, а на самом деле каждый раз заново стартуете совершенно новый, полноценно оплачиваемый диалог.

Эта цифра получена по фактическим замерам независимого разработчика ArkNill через прокси-мониторинг. Он настроил прозрачный прокси, чтобы фиксировать каждый запрос между Claude Code и Anthropic API, и обнаружил как минимум два клиентских кэша-багa, из‑за которых сервер API не мог сопоставить префикс уже закэшированного диалога — в результате в каждом раунде приходилось заново собирать весь токеновый контекст.

На верхнем изображении показано сравнение коэффициентов чтения кэша на трех этапах. В период v2.1.69–v2.1.89 (то есть на время существования бага) у standalone-версии коэффициент чтения кэша был всего 4–17%. После того как v2.1.90 исправила один из ключевых багов, коэффициент чтения кэша при холодном старте вернулся к 47–99.7%. А к v2.1.91, при стабильной работе, коэффициент чтения кэша снова восстановился до 97–99%.

Важно отметить одну деталь на графике: диапазон v2.1.90 очень широк (47% до 99.7%), потому что когда сессия только что восстановилась, кэш еще нужно «прогреть» — в первых раундах частота попаданий была низкой, но быстро вернулась к нормальному уровню. А в версии с багом этого прогрева никогда не происходит: чтение кэша всегда остается на системной подсказке в 14,500 токенов, и вся история диалогов каждый раз тарифицируется по полной цене.

28 дней, 20 версий

Этот баг — не тот случай, когда он появился после одного обновления, а затем был исправлен следующим. Согласно записи релизов в npm registry, версия v2.1.69, которая привнесла баг, вышла 4 марта, а v2.1.90, которая исправила баг, — 1 апреля. Между ними прошло 28 дней и 20 версий.

Таймлайн вскрывает любопытную деталь. После внесения бага 4 марта пользователи не стали сразу массово жаловаться. Лишь 23 марта недовольство сконцентрировалось и начало резко нарастать — пауза составила почти три недели. Причина, как следует из разборa GitHub issue #41930: с 13 по 28 марта Anthropic запустила промоакцию с удвоением лимитов (удвоение в off-peak периодах), что объективно скрывало влияние бага. После окончания промо расход на кэше-баг снова вернулся к нормальной базовой тарификации, и квоты пользователей за считанные моменты «испарились».

Ответ от Anthropic пришел не сразу. 26 марта, то есть через три дня после пика жалоб, инженер Thariq Shihipar в личном аккаунте X объявил, что лимиты в пиковые часы (рабочие дни 5am-11am PT) ужесточены. 30 марта Anthropic на Reddit признала: «скорость, с которой пользователи достигают лимитов, намного выше, чем ожидалось», и заявила, что вопрос внесен в список приоритетов №1 для команды. До 1 апреля член команды Lydia Hallie только тогда опубликовала официальные выводы по результатам расследования.

На протяжении всего процесса Anthropic не опубликовала никаких постов в блоге, не отправила письма и не обновила страницу статуса. Любые официальные коммуникации были сделаны только через личные посты инженеров в соцсетях и несколько комментариев на Reddit.

Сколько вы заплатили и на сколько вам хватило?

GitHub issue #41930 собрала сотни пользовательских отчетов. Самый крайний случай — подписчик Max 20x ( $200/мес. ), и его 5-часовое скользящее окно было полностью исчерпано за 19 минут. Пользователи Max 5x ( $100/мес. ) сообщали, что 5-часовое окно заканчивается за 90 минут. По данным The Letter Two, еще один пользователь утверждал, что простая «hello» съедает 13% квоты сессии. Один Pro-пользователь ( $20/мес. ) в Discord рассказал, что его лимит «заканчивается в понедельник, а в субботу сбрасывается», и за 30 дней только 12 дней он мог нормально пользоваться сервисом.

По бенчмаркам ArkNill, в версии с багом v2.1.89 квота 100% для плана Max 20x исчерпывается примерно за 70 минут. Он также подсчитал стоимость квоты для одной операции --resume при сессии с контекстом в 500K токенов — около $0.15, поскольку система полностью заново проигрывает весь контекст.

«Вы держите это неправильно»

Выводы расследования Lydia Hallie подтвердили две вещи: во‑первых, лимиты в пиковые часы действительно были ужесточены; во‑вторых, увеличилось потребление при сессиях с контекстом в 1 миллион token. Она заявила, что команда исправила некоторые баги, но подчеркнула: «Ни один баг не привел к переплате».

Затем она дала четыре совета по экономии: 1. Используйте Sonnet 4.6 вместо Opus (Opus расходуется примерно в два раза быстрее);

При отсутствии необходимости в глубоком рассуждении снижайте интенсивность рассуждений или отключайте extended thinking;
Длинные сессии, простаивавшие более часа, не восстанавливайте — открывайте новую;
Задайте переменную окружения CLAUDE_CODE_AUTO_COMPACT_WINDOW=200000, чтобы ограничить размер окна контекста.

Никаких упоминаний о сбросе лимитов или компенсациях в любом виде не было.

Ведущий AI-подкаста Алекс Волков (Alex Volkov) охарактеризовал этот ответ как «вы держите это неправильно» (You’re holding it wrong), отметив, что Anthropic сама установила контекст в 1 миллион token по умолчанию, продвигает Opus как флагманскую модель и позиционирует extended thinking как продающую «фишку», а теперь предлагает платным пользователям не использовать эти функции.

Утверждение о «не было переплат» также вступает в противоречие с журналом обновлений самого Claude Code. Прямо за день до публикации ответа Lydia команда v2.1.90 исправила регрессионный баг кэша, существовавший с v2.1.69: при восстановлении сессии с помощью --resume запросы, которые должны были попасть в кэш, вместо этого вызывают полный prompt cache miss и тарифицируются по полной цене. В ответе Lydia этот уже подтвержденный аномальный сценарий тарификации не упоминался.

Для сравнения: ранее похожая проблема аномального расхода квот случалась и у OpenAI для Codex. Подход OpenAI заключался в том, что они сбрасывали пользователям квоты, выпускали кредиты и в марте объявили об удалении лимита на использование Codex. Подход Anthropic — советовать пользователям понижать уровень модели, отключать функции, ограничивать контекст и перекладывать ответственность на способ использования пользователями.

Anthropic продает подписку за «самую сильную модель + максимальный контекст + максимальную способность к рассуждениям», взимая $20–200 в месяц. Кэш-баг, растянувшийся на 28 дней, заставляет квоты платных пользователей «испаряться» со скоростью в 10–20 раз быстрее, а официальный ответ — просит вас расходовать экономно.

На лимит «три слова hello» — куда делся ваш лимит для Claude Code? Кэш-ошибка, растянувшаяся на 28 дней, и официальный ответ, который призывает «расходовать экономнее»

Популярные темы

GateSquareAprilPostingChallenge

MarchNonfarmPayrollsIncoming

IsraelStrikesIranBTCPlunges

CryptoMarketSeesVolatility

OilPricesRise

Горячее на Gate Fun

TMP

特没谱

BHR

黑马纪元

LELE

乐乐

op

op

火箭

HJ

Закрепить