Deep Thinking Tokens: как рассуждения становятся товаром

Anekdot из мира AI: пользователь просит модель решить задачу, получает ответ за 3 секунды и недоволен — «Дай подумай!». Теперь у моделей есть ответ: deep thinking tokens. За дополнительную плату они тратят больше вычислительных ресурсов на «размышления» перед ответом. Это не баг и не фича — это новая бизнес-модель.

На прошлой неделе Anthropic выпустила Sonnet 4.6 с контекстом в 1 миллион токенов и результатами, которые эксперты называют прорывными на бенчмарке ARC-AGI-2. Одновременно индустрия активно обсуждает так называемые deep thinking tokens — механизм, при котором модель получает «бюджет рассуждений» и использует его для более тщательного анализа задачи. Всё это происходит на фоне нарастающего напряжения между Anthropic и Пентагоном, а также исследования о дистилляционных атаках, которые объясняют, как конкуренты копируют возможности больших моделей через их компактные версии.

Что такое миллион токенов на практике

Контекстное окно в 1 миллион токенов — это примерно 750 000 слов или полторы книги. Для сравнения: GPT-4o поддерживает 128 000 токенов, Claude 3.5 Sonnet — 200 000. Разрыв не количественный, а принципиальный.

При таком окне в память модели помещается:

  • Полная кодовая база крупного проекта без RAG и chunking-стратегий
  • Несколько научных статей одновременно с возможностью сравнивать их между собой
  • Диалоги продолжительностью в месяцы — контекст сохраняет историю взаимодействия целиком

Для enterprise-задач это означает, что компании могут подавать модели на вход целые репозитории документации и получать ответы, учитывающие каждую деталь. Не нужно вырезать, агрегировать, пересказывать — модель видит всё.

Sonnet 4.6 показал на ARC-AGI-2 результаты, которые эксперты называют качественным скачком. ARC-AGI — бенчмарк, разработанный для измерения способности моделей к адаптивному решению новых задач, а не к запоминанию паттернов. Высокие результаты на нём означают, что модель способна выводить правила из примеров и применять их к ситуациям, которых не видела при обучении. Это ближе к определению общего интеллекта, чем стандартные тесты на рассуждения.

Deep thinking tokens: платная пауза

Концепция deep thinking tokens родилась из наблюдения: для разных задач нужно разное время на «обдумывание». Простая арифметика не требует 10 секунд размышлений — но сложная логическая задача может получить качественно лучший ответ, если модели дать время на проверку промежуточных шагов.

Механизм работает так: пользователь или API-запрос указывает budget для рассуждений. Модель получает дополнительный контекст, в котором может «рассуждать вслух» перед финальным ответом. Это неCoT (Chain of-Thinking) в чистом виде — это именно токены, за которые взимается отдельная плата, как за премиум-доставку.

Аргумент индустрии: вычислительные затраты на «думание» реальны, и если пользователь хочет более качественный ответ, логично за это платить. Модель не просто генерирует текст — она прогоняет дополнительные итерации внимания, перепроверяет логику, ищет контрпримеры.

Контраргумент скептиков: под капотом это та же модель. Дополнительные токены рассуждений не добавляют ей новых знаний — они只是 заставляют её более аккуратно обращаться с уже известным. По сути это продажа вычислительного времени как услуги, упакованной в маркетинговый термин.

Практический эффект зависит от задачи. На математических бенчмарках вроде MATH и GSM8K deep thinking показывает стабильный прирост — модель действительно находит ошибки в промежуточных выкладках. На задачах с нечеткими формулировками или в творческих доменах прирост менее предсказуем. Если задача требует инсайта, а не перебора, дополнительные рассуждения могут зациклиться на неверном пути.

Distillation attacks: как маленькие модели становятся большими

Anthropic опубликовала исследование о дистилляционных атаках — методе, при котором компактная модель (Student) обучается имитировать поведение большой (Teacher) не через стандартный fine-tuning, а через анализ ответов Teacher на широком наборе запросов. Результат: Student начинает демонстрировать способности, которые не были явно заложены при её создании.

Ключевой вывод: большая модель при обучении формирует не только знания, но и «скрытые умения» — паттерны поведения, которые проявляются в ответах, но не были частью явного датасета. Если компактная модель может извлечь эти паттерны через массив запросов-ответов, возникает вопрос: зачем платить за GPT-5, если можно дообучить Mistral на её ответах?

Для индустрии это создает интересную динамику. Лидеры (OpenAI, Anthropic, Google) вкладывают миллиарды в обучение frontier-моделей. Конкуренты получают возможность «отжать» значительную часть их возможностей через API-запросы и дистилляцию. Ответ лидеров — ограничение доступа, watermark в ответах, правовые механизмы. Но полностью закрыть модель невозможно: если она генерирует текст, её ответы можно использовать для обучения.

Anthropic и Пентагон: этика vs контракт

Напряжение между Anthropic и Pentagon стало публичным. Anthropic известна позицией осторожного развития AI: компания ввела internal commitments об ограничении возможностей моделей, отказалась от certain research directions, публиковала internal evaluate о рисках. Пентагон, напротив, заинтересован в применении AI для задач национальной безопасности — разведка, автономные системы, кибероперации.

Контракт, о котором идет речь, предполагает использование Claude для задач, связанных с defense-применениями. Для Anthropic это вопрос принципов: компания не хочет, чтобы её модели использовались для автономного оружия или задач, где AI принимает решения о применении силы. Для Пентагона это вопрос конкурентоспособности — американские military AI-системы должны соответствовать уровню китайских и российских разработок.

Детали контракта не раскрываются, но утечки и публичные заявления сторон позволяют реконструировать картину. Anthropic, судя по всему, рассматривает возможность поставки моделей для аналитических задач (обработка данных, поддержка решений), но не для автономных систем. Пентагон настаивает на более широком применении.

Эта ситуация отражает более широкий конфликт в AI-индустрии: между компаниями, которые хотят контролировать распространение технологии, и государствами, которые рассматривают AI как стратегический ресурс. OpenAI, Google, Meta занимают разные позиции в этом спектре, но давление со стороны государственных заказчиков усиливается на всех.

Что это значит для практика

Если вы работаете с AI в 2026 году, вот что стоит учитывать:

Контекстное окно в миллион токенов меняет архитектуру RAG. Многие компании построили инфраструктуру around chunking documents into smaller pieces для обхода лимитов контекста. С миллионом токенов часть этих костылей исчезает — можно подавать модели целые документы без предварительного измельчения и агрегации. Но появляется новая проблема: attention на таком окне вычислительно дорог, и стоимость запроса растёт непропорционально длине. На практике это означает, что для задач с большими документами нужно считать экономику: что дешевле — chunking + retrieval или один длинный запрос? При текущих ценах ответ не всегда очевиден.

Отдельно стоит вопрос сattention patterns на длинных контекстах. Стандартный attention имеет квадратичную сложность от длины последовательности — миллион токенов создаёт real pressure на инженеров, которые оптимизируют inference. Большинство моделей для таких окон используют sparse attention или sliding window approaches, которые жертвуют частью качества в дальних зависимостях ради скорости. Sonnet 4.6, судя по публичным данным, применяет более агрессивные оптимизации, но детали Anthropic не раскрывает.

Deep thinking tokens имеет смысл для задач с проверяемым ответом. Математика, код, логические головоломки — здесь дополнительные рассуждения действительно улучшают результат. Модель находит ошибки, которые пропускает при быстром ответе, перепроверяет промежуточные выкладки, ищет контрпримеры. Это измеримый прирост — на MATH и GSM8K он стабилен и воспроизводим. Для open-ended задач (написание текстов, творческие домены, стратегическое планирование) прирост менее предсказуем: модель может углубиться в неверный путь и прийти к более уверенному, но не более правильному ответу. Рекомендация: включайте budget рассуждений для формально верифицируемых задач, для остального — измеряйте конкретный прирост на ваших данных, а не на бенчмарках.

Техническая реализация deep thinking tokens варьируется между провайдерами. Некоторые (Anthropic, OpenAI) позволяют задать budget в токенах и внутренне решают, как его использовать. Другие экспортируют это как отдельную услугу с фиксированным pricing — платите за «улучшенный» ответ, получаете модель с расширенным CoT. Важно понимать: под капотом это та же модель, просто с большим пространством для промежуточных вычислений. Никакой магии — только больше compute на ваши деньги.

Дистилляция создаёт давление на ценообразование. Если компактные модели через дистилляцию достигают 80% возможностей больших за 20% стоимости, ценовая модель frontier-моделей становится уязвимой. Стратегия Anthropic — закрывать доступ к API, лимитировать rate limits, добавлять watermark в ответы. Но это замедляет, а не останавливает процесс. Если модель генерирует текст, этот текст можно использовать для обучения — таков фундаментальный принцип работы нейросетей. Архитектурно закрыть это невозможно без отключения модели целиком.

Интереснее другое: distillation attacks ставят вопрос о собственности на «knowledge» модели. Если дистиллированная модель демонстрирует паттерны поведения, которые появились у Teacher в результате многомиллиардного обучения — является ли это нарушением интеллектуальной собственности? Юридически это territory white — прецеденты только формируются. Практически компании вроде Google и Microsoft уже патентуют techniques дистилляции, чтобы иметь рычаги влияния.

Конфликт вокруг defense-применения AI не разрешится быстро. Государства будут настаивать на доступе, компании — сопротивляться. Это создаёт неопределённость для enterprise-клиентов: контракты могут пересматриваться, модели могут исчезать из публичного доступа, приоритеты вендоров могут смещаться. Для бизнеса это означает необходимость строить архитектуру around vendor lock-in risk — не привязываться к одной модели, иметь alternatives, мониторить контрактные изменения.

Конкретный пример: компания, которая в 2025 году построила production pipeline на Claude API для своих клиентов, в 2026 может обнаружить, что Anthropic ограничила доступ для certain verticals или подняла цены из-за pressure со стороны government contracts. Это не академическая проблема — enterprise clients уже обращаются к open-source моделям (Llama, Mistral) как к insurance policy против зависимости от frontier-провайдеров.

Sonnet 4.6 в контексте frontier-гонки

Для понимания значимости Sonnet 4.6 нужно смотреть на бенчмарки в контексте того, что делают конкуренты. Google с Gemini 3.1 Pro показал major jump на ARC-AGI-2, xAI выпустил Grok 4.2 beta с multi-agent debate механизмом. Это не изолированные релизы — это part of a larger pattern, где каждый major player одновременно расширяет контекстное окно, улучшает reasoning, и пытается отстроиться по цене.

Что конкретно измеряет ARC-AGI-2 и почему результаты на нём важны? Первый ARC-AGI (Abstraction and Reasoning Corpus — General Intelligence) был разработан François Chollet как тест на fluid reasoning — способность выводить правила из примеров и применять их к новым ситуациям. Это не запоминание паттернов, а именно генерализация. ARC-AGI-2 — его усложнённая версия с более разнообразными доменами и более сложными правилами.

Когда Sonnet 4.6 показывает высокие результаты на ARC-AGI-2, это означает, что модель способна к задачам, которые не встречались в training data в явном виде. Этоproperty, которая отличает «узкий AI» от «более общего интеллекта» в понимании исследователей. Практически это значит: для enterprise-задач, где inputs непредсказуемы и требуют адаптации, модели с высокими ARC-AGI-2 результатами будут более надёжны.

Часто задаваемые вопросы

Почему миллион токенов контекста — это важно, а не просто маркетинг?

Разница между 200К и 1М токенов не количественная, а архитектурная. При 200К окне приходится выбирать, какую часть контекста подавать модели. При 1М можно дать модели целый репозиторий или книгу целиком — без потерь и упрощений. Это принципиально меняет то, какие задачи можно решать без внешних retrieval-систем.

Оправдывают ли deep thinking tokens свою стоимость?

Для задач с однозначно правильным ответом — да. Модель действительно находит ошибки, которые пропускает при быстром ответе. Для открытых задач результат менее предсказуем. Рекомендация: используйте budget рассуждений для математики, кода и формально верифицируемых задач. Для остального — измеряйте конкретный прирост, а не полагайтесь на маркетинговые заявления.

Может ли distillation attacks полностью обесценить frontier-модели?

Технически — нет. Distillation позволяет копировать паттерны поведения, но не фундаментальные знания, которые требуют прямого обучения на данных. Кроме того, frontier-модели имеют преимущество в масштабе, который компактные версии не могут воспроизвести за счёт дистилляции. Однако экономическое давление на цены это создаёт реальное.

Итог

Sonnet 4.6 с его миллионом токенов и ARC-AGI-2 рекордом — не просто апгрейд, а демонстрация того, что контекстное окно продолжает расти и расширяет горизонт применения. Deep thinking tokens одновременно предлагают новую модель монетизации и ставят вопрос: за что именно мы платим — за знания или за вычислительное время?

Distillation attacks и конфликт Anthropic с Pentagon указывают на более глубокий тренд: технология AI созревает до точки, где её контроль становится политическим вопросом, а не только техническим. Компании, которые хотят сохранять влияние, вынуждены балансировать между принципами и давлением государственных интересов.

Следите за тем, как эти тренды пересекаются в ближайшие месяцы — они определят и ценовую модель, и архитектурные решения, и этические границы отрасли.

← Все записи