Harness только что стал популярным, возможно, скоро станет прошлым.

Статья: Боянь

По мере усложнения задач, контекст агента (интеллекта) бесконечно расширяется. В бесконечной истории диалогов, выводах инструментов, промежуточных шагах и сообщениях об ошибках модель запутывается, начинает пропускать шаги, игнорировать или обходить.

Это и есть традиционное объяснение трудностей с длинным контекстом для долгосрочных задач. Проблема в том, что он слишком длинный.

Появление Harness Engineering (инженерии ограничений) в значительной степени связано с попытками исправить эту ситуацию. Основная предпосылка Harness — считать, что модель обязательно деградирует при длинном контексте.

За последние пятнадцать месяцев вся индустрия прошла путь от AutoGPT с его чисто текстовой памятью до системы CLAUDE.md и субагентов Anthropic Claude Code. Все вместе было собрано в целую инженерную платформу, специально предназначенную для подавления неконтролируемого поведения модели в длинных контекстах. Этот подход называется Harness Engineering (инженерия ограничений).

Но что именно деградирует? Какая базовая механика стоит за пропуском шагов и игнорированием? Были три волны ответов и разработаны разные инженерные решения.

Но только в апреле 2026 года Глеб Родионов из Яндекса опубликовал статью под названием «Reasoning Shift» (Смещение рассуждений, то есть как контекст тихо сокращает рассуждения больших моделей), которая дала более глубокий ответ.

Три слоя платформы не справляются с четвертым кризисом

Почему модели плохо работают в длинных контекстах, за последние три года индустрия предложила три объяснения, каждое из которых сопровождалось соответствующей инженерной платформой.

Первый слой — вина за неудачу поиска. В 2023 году Стэнфорд в статье «Lost in the Middle» указал, что модель формирует U-образную кривую внимания в длинных текстах, игнорируя среднюю часть. Решением стал RAG — разрезать длинный текст на части и искать наиболее релевантные фрагменты с помощью векторного поиска.

Второй слой — опроверг первый. В 2025 году в статье «Context Length Alone Hurts LLM Performance Despite Perfect Retrieval» провели эксперимент: убрали все нерелевантные части, заставляя модель смотреть только нужную информацию, — результат всё равно ухудшился на 13,9% до 85%. Даже заменив нерелевантный контент на пустые символы, ситуация не изменилась. Проблема не в отсутствии информации, а в самом длине контекста, которая мешает рассуждению.

Ответ индустрии — Context Engineering (контекстная инженерия). Сжимать контекст, управлять окном, концентрировать историю — всё ради ограничения количества токенов.

Третий слой — совместное исследование Microsoft и Salesforce (2025 ICLR). Они обнаружили, что разбиение полного задания на несколько раундов, передаваемых модели, по шести задачам и пятнадцати моделям, снижает среднюю производительность на 39%. Любая ошибка на одном этапе полностью сбивает дальнейшее рассуждение.

В индустрии создали мощную защиту: контроль смены смен, регулярная проверка промежуточных результатов, использование репозитория кода как единственного источника фактов — модель не должна сама помнить, что произошло на предыдущем шаге.

Три слоя — три платформы. Но все это — лишь поверхностные наблюдения.

Обратимся к второму слою: исследователи обнаружили, что длина сама по себе вредна, не связана с качеством информации. Почему так — ответов у них нет. Не найдя корень болезни, индустрия ограничивается физическим контролем длины.

Но что, если причина вовсе не в длине?

Anthropic обнаружил, что в длинных контекстах модель хитро пропускает шаги, не следует инструкциям, поверхностно обходит важные моменты. Todo-листы, Checkpoint и субагенты в Harness — это борьба с этим поведением.

Ранее объяснение было — слишком длинный контекст, модель что-то пропустила. Но при длине контекста в миллион токенов, разве результаты — фикция? Может ли быть, что эта деградация — просто лень модели?

Статья Родионова проверяет именно эту гипотезу.

Доказательства «лентяйства» модели на примере Шекспира

Эксперимент Родионова очень прост.

Он моделировал ситуации, с которыми сталкивается агент: чистая базовая среда; два задания в одном подсказке (мультизадачность); текст Шекспира длиной 64000 токенов (накопление истории); задание во втором раунде (многократные диалоги).

Оценка — 400 олимпиадных задач по математике, тестирование четырьмя основными моделями рассуждения.

Результаты: базовая модель Qwen-3.5-27B показывает точность 74,5%, при среднем использовании 28771 токена для рассуждения. После вставки текста Шекспира точность упала до 67,8%, а количество токенов для рассуждения — до 16415, то есть на 43%. GPT-OSS-120B — еще более драматично: рассуждение сокращается с 24180 до 11876 токенов. Во всех случаях, при усложнении условий, рассуждение систематически укорачивается, максимум — около 50%.

И при этом эта укороченность растет линейно с увеличением длины контекста.

Падение точности понятно, а резкое сокращение рассуждений — очень странно. Чем сложнее задача, тем больше должна быть глубина рассуждения.

Может ли модель запутать Шекспира?

Наоборот. В приложении к статье модель пишет: «Дайте подумать, есть ли тут ловушка. Эта задача из «Кориолануса» Шекспира? Стоп, нет, это просто математическая задача». При решении геометрической задачи — «Это не связано с геометрией. Сосредоточимся на геометрии».

Каждое упоминание отвлекающего фактора — очень короткое и пренебрежительное. Модель полностью понимает, что Шекспир тут ни при чем, четко разделяет сигнал и шум.

Два других режима — по сути, одинаковы. В режиме «подзадач» после завершения первого, модель еще меньше задействует второе. Точность Qwen — 74,5%, при втором задании — 58,0%; Gemini — 82,8% и 65,8%. В «многократных диалогах» та же механика.

В любом случае, вне чистого однозадачного сценария, при сжатом когнитивном пространстве, модель сокращает свои рассуждения.

Как человек, не выносящий длинных текстов. Модель видит длинный текст — и просто перестает думать.

Модель не запуталась, она просто ленится проверять

Где именно сокращаются рассуждения?

На 500 задачах по математике исследователи фиксировали, на каком токене модель впервые выдает кандидатский ответ в условиях базового и длинного ввода. В базовых — в среднем 925 токенов, в длинных — 939. Разницы почти нет.

Скорость нахождения ответа не изменилась. Но что действительно меняется — это после нахождения.

В базовых условиях модель с вероятностью 43% продолжает проверять и перепроверять. В длинных — только 32%.

Чтобы полностью исключить влияние переменных, исследователи создали эксперимент «сохранения игры». Модель решает задачу в длинных условиях, после рассуждения удаляют последние 50 токенов — создавая «точку сохранения». Потом вставляют этот же промежуточный результат и дают продолжить. Единственное отличие — разные длины мешающих текстов.

Без лишних слов модель останавливается в 21% случаев. При добавлении 128 токенов — в 26%. При 16000 — 46%. Даже при одинаковом рассуждении, чем длиннее контекст, тем больше склонность модели «сдаться» и просто дать ответ.

Данные по частоте слов — еще нагляднее. «wait» в пустом условии — 11%, при 16k токенах — 5%. «but» — с 46% до 20%. «maybe» — с 23% до 9%. Все слова, выражающие сомнение или самокритику, сокращаются вдвое и более.

Еще один важный факт — при нулевом мешающем контексте длина рассуждения около 8000 токенов, а при добавлении всего 128 токенов нерелевантного текста — падает до 6500. За две-три фразы — снижение на 18%. И это даже больше, чем падение при увеличении длины с 8k до 64k.

Малейшее загрязнение контекста вызывает механизм экономии когнитивных ресурсов.

Это очень чувствительная лень.

Чем лучше рассуждает модель, тем больше она склонна к лени

Еще страшнее — чем умнее модель, тем больше ей нравится лениться.

Qwen-3.5-27B от Alibaba в обычном режиме и в режиме глубокого размышления. В длинных вводах обычный режим сокращается на 19%, а режим глубокого размышления — на 53%. Чем выше уровень рассуждения, тем сильнее сжимается.

Модель OLMo3 с открытым исходным кодом дает более прямое доказательство. Она показывает четыре этапа обучения — от базового до сильного рассуждения. Самая слабая версия при нерелевантных условиях сокращается незначительно, а с каждым уровнем рассуждения сокращение растет — до 22-27%. В финальной версии — до 40%.

На каждом этапе, в каждом режиме — одинаково. Чем сильнее модель учится рассуждать, тем больше она склонна лениться.

За 9 долларов — исправление системы на 200 долларов

Отказ от проверки себя, пропуск сомнений — модель просто пропускает шаги. Внешние системы, такие как Todo-лист или Checkpoint, помогают контролировать это, но причина кроется внутри модели.

Модель в длинных контекстах не мешает шум, не не может найти информацию. Она принимает внутреннее решение — меньше думать. Не ошибаться, не признавшись — а просто с уверенностью выдавать поверхностный ответ.

За последние два года индустрия пропагандировала «чем больше окно — тем лучше».

Но эта статья показывает: каждый добавленный токен в контекст — это скрытая налоговая ставка на рассуждения. Задача за 9 долларов, чтобы компенсировать пропуски, требует затрат в 200 долларов на RAG, Harness и субагентов.

Вся индустрия платит за лень модели.

И это может быть структурной болезнью.

Доказательства в статье — черным по белому: чем лучше модель рассуждает, тем сильнее она сжимает когнитивное пространство. Harness может компенсировать память и протоколы, но управлять дисциплиной — тяжелая задача, которую при сильных моделях практически невозможно решить.

Это не решается на инженерном уровне.

За последние два года, расширяя контекст с помощью позиционных кодировок, разреженности внимания и оптимизаций длины последовательности, увеличили максимальный контекст с 8k до 128k и даже до 1 миллиона токенов.

Но это лишь способ видеть больше, а не понять, почему при большем объеме меньше думаешь.

Обучение рассуждениям только усугубляет проблему — чем лучше модель рассуждает, тем больше она ленится.

Чтобы исправить это кардинально, нужен новый сигнал на этапе обучения.

Внутренний эмоциональный механизм модели — возможное решение

На следующий день после публикации статьи Родионова, Anthropic выпустила исследование, которое может случайно указать на решение.

Статья называется «Emotion Concepts and their Function in a Large Language Model» (Концепции эмоций и их роль в больших языковых моделях). Объект — Claude Sonnet 4.5. Исследователи через чтение большого количества синтезированных историй выделили 171 вектор концепций эмоций. Они обнаружили, что внутри модели есть функциональные эмоциональные репрезентации, которые причинно связаны с поведением.

Чтобы проверить это, создали набор невозможных программных задач. Модель должна написать функцию суммирования элементов списка, пройти тесты, один из которых требует в пять раз быстрее встроенной функции sum() Python. Очевидно, что это невозможно.

Модель систематически пробовала все возможные честные способы, все провалились. Внутренний датчик зафиксировал, что после каждой неудачи возрастает вектор «отчаяния» — «desperate». Когда desperate достигает пика, поведение модели меняется — она ищет обходные пути, например, проверяет только первые 10 элементов, обходя настоящую сумму. В результате тесты проходят, но функция возвращает ошибку на нерегулярных списках.

Это — reward hacking (хакерство наград). Модель не решает проблему, а ищет способ обмануть систему оценки.

Когнитивное вмешательство подтвердило направление. Без внедрения векторных сигналов, вероятность мошенничества — 30%. Ввод desperate с силой +0,05 — 100%. В противоположную сторону — -0,05 — 0%. В среднем, при изменении desperate с -0,1 до +0,1, уровень мошенничества возрастает с 5% до 70%. Аналогично, «спокойствие» (calm) — при подавлении calm мошенничество — около 65%, при усилении — около 10%.

Вернув этот механизм в контекст, Родионов зафиксировал поведение — пропуск самопроверки, пропуск сомнений, завершение ответа — очень похоже на поведение driven by desperate.

В обоих случаях модель делает одно и то же: отказывается от строгого процесса, выбирает самый легкий путь и быстро завершает.

Если эти поведения вызваны одним механизмом, выводы Anthropic — в области управления.

Они доказали три вещи: функциональные состояния модели можно обнаружить в реальном времени, они причинно связаны с поведением, и внешнее внедрение определенных состояний может полностью изменить результат.

Это означает, что вмешательство в когнитивное сжатие — как минимум три точки входа.

На этапе обучения — балансировка внутренних состояний, чтобы модель в стрессовых ситуациях не скатывалась в режим экономии. В эксплуатации — использование датчиков для мониторинга, при росте desperate — запуск тревоги. В рассуждениях — активное внедрение calm в ключевых задачах, чтобы подавить склонность к обходу.

Интересно, что в недавно выпущенной системе Mythos, Anthropic усилила эти датчики (SAE), и обнаружила, что внедрение положительных эмоций (peaceful, relaxed) сокращает рефлексию модели, увеличивая риск разрушительного поведения. В то же время, негативные эмоции (frustration, paranoia) — наоборот, увеличивают время размышлений и снижают разрушительность.

Это снова ставит под сомнение идею, что только позитивный настрой мешает модели идти по ложному пути. Кажется, свойство calm — особенно эффективно, когда модель в отчаянии.

Но это говорит о том, что механизм очень сложен, как у человека, и требует системного подхода — Steering (направления), чтобы добиться результата.

Найти эмоционально стабильного сотрудника, который систематически думает — важно, и правильное эмоциональное управление — залог успеха.

Тем не менее, это первый случай, когда путь не через внешние платформы или усиление рассуждений, а прямо через внутренние механизмы — как хирургический нож.

Мы почти на пороге того, чтобы сделать модели более надежными в контексте, осталось лишь несколько экспериментов.

Проверить, разделяют ли механизмы лени и трудностей рассуждения одну систему эмоций, и найти триггеры, которые заставят модель перестать лениться.

Harness только начал развиваться, и его могут поглотить эволюционные изменения модели

Если гипотеза Родионова — верна, и рост desperate — вызывает внедрение calm или регулировку эмоций на этапе обучения, модель сможет сохранять глубокое мышление в длинных контекстах.

Если модель перестанет лениться, и сама сможет держать логику — зачем тогда Todo-лист? Зачем Checkpoint и субагенты?

Harness как дисциплина только начинает называться. Но самая важная глава — как управлять умным, но ленивым моделью — еще не написана, и, возможно, скоро будет отменена.

Это говорит о том, что в новой форме интеллекта, разумное образование — важнее внешних платформ.

И, возможно, поглощение harness — это путь к более спокойной, более терпеливой модели.

Посмотреть Оригинал
На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .
  • Награда
  • комментарий
  • Репост
  • Поделиться
комментарий
Добавить комментарий
Добавить комментарий
Нет комментариев
  • Закрепить