31.05.2026 Исследования

Почему LLM не умеют думать молча — и как это исправить

Когда языковая модель решает математическую задачу, она буквально думает вслух. Каждый промежуточный шаг — слово за словом, токен за токеном — она генерирует в тексте. Это как если бы математик перед каждым действием обязан был произнести его вслух. Звучит нелепо, но именно так работает chain-of-thought reasoning, на котором держатся все современные методы усиления рассуждений у LLM. Новая работа предлагает альтернативу: Reasoning in Memory — методика, которая учит модель думать молча, используя внутреннюю рабочую память вместо внешней речи.

Что не так с размышлениями вслух

Chain-of-thought действительно работает. Когда модель генерирует промежуточные шаги перед ответом, точность на математических бенчмарках растёт в разы. Но эта эффективность имеет скрытую цену: язык оптимизирован для коммуникации, а не для вычислений. Каждый промежуточный токен тратит вычислительный бюджет не на само рассуждение, а на построение грамматически корректных предложений. Модель вынуждена «думать по-английски» — или по-китайски, или на любом другом языке обучающего корпуса — даже когда логика задачи совершенно не зависит от лингвистики.

Недавние методы латентных рассуждений, такие как Coconut, пытались решить эту проблему, заменяя текстовые шаги на непрерывные векторные представления. Но они сохраняли ту же пошаговую парадигму: каждое промежуточное представление всё равно должно было быть сгенерировано до того, как следующее сможет на него опереться. Вычисление оставалось связанным с автрегрессивной генерацией — просто в непрерывном пространстве вместо дискретного.

Человеческое познание работает иначе. Решая сложную задачу, мы не артикулируем каждый промежуточный шаг. Рабочая память позволяет удерживать и манипулировать информацией внутренне, без необходимости внешне выражать каждую мысль. Именно этот принцип лёг в основу Reasoning in Memory.

Как устроен Reasoning in Memory

Авторы предлагают заменить автрегрессивную генерацию рассуждений на фиксированные блоки памяти — последовательности специальных токенов фиксированной длины, которые модель обучается использовать как латентное рабочее пространство. Ключевое отличие: эти блоки не генерируются, а обрабатываются за один прямой проход через сеть. Это развязывает промежуточное вычисление от пошаговой генерации.

Обучение проходит в два этапа. Первый этап — постановка на ноги. После каждого блока памяти модель обучается предсказывать следующий шаг явного рассуждения. Это заставляет блоки накапливать задачерелевантную информацию: если модель должна восстановить следующий логический шаг из текущего состояния памяти, она вынуждена хранить в этом состоянии всё необходимое для продолжения решения. Второй этап — переход к автономии. Надзор за промежуточными шагами убирается, и модель обучается напрямую уточнять финальный ответ после каждого блока памяти. Теперь рабочее пространство функционирует самостоятельно, без привязки к текстовым шаблонам.

Маска внимания при этом остаётся строгой: каждый readout видит только вопрос и блоки памяти, накопленные к текущему моменту. Это принуждает модель структурировать латентное пространство вокруг промежуточной информации, а не полагаться на подсказки из будущих состояний.

Что показали эксперименты

Исследователи обучали модели семейств GPT-2 и Llama-3.2 на датасете GSM8K-Aug и оценивали на GSM8K и GSM-Hard как внутри- и внераспределённые бенчмарки. Результаты оказались убедительными по двум направлениям одновременно: точность и задержка.

На GPT-2 RiM достигает 39,5% точности на GSM8K — практически на уровне chain-of-thought с явной генерацией шагов (39,8%), но с временем до первого токена всего 7,6 мс против 213,7 мс. Это сокращение задержки в 28 раз без потери качества. По сравнению с прямым ответом без рассуждений прирост составляет 24,1 процентных пункта — с 15,4% до 39,5%.

По сравнению с лучшим вариантом Coconut, RiM показывает улучшение от 2,5 до 7,5 процентных пунктов на GSM8K и от 0,7 до 1,8 пунктов на более сложном GSM-Hard. Прирост над базовым обучением с прямым ответом ещё впечатляющее: от 12,6 до 18,2 процентных пункта на GSM8K и от 3,5 до 5,2 на GSM-Hard.

Важно, что эти результаты получены при одинаковом бюджете обучения. Авторы специально подчёркивают, что не использовали скрытую селекцию чекпоинтов по валидационной метрике — практику, которая в других работах по латентным рассуждениям создавала завышенные оценки.

Почему это работает: интуиция за механизмом

Анализ представлений в блоках памяти подтверждает, что модель действительно использует их для нетривиальных вычислений, а не просто как заполнители. Проекция представлений в общем базисе PCA показывает, что в ходе обучения блоки памяти формируют структурированные траектории, отражающие прогрессию решения задачи. Начальные блоки кластеризуются по типу задачи, промежуточные — по текущему логическому шагу, финальные — по степени уверенности в ответе.

Это отличается от поведения случайных или неинициализированных токенов. Простое добавление filler tokens без целевого обучения, как показывали предыдущие работы, не улучшает точность и может даже снижать её в длинных контекстах. Разница в том, что блоки памяти RiM обладают определённой вычислительной ролью, заданной через двухэтапную куррикулумную стратегию.

Метод также демонстрирует свойство anytime answer: поскольку каждый readout после блока памяти предсказывает финальный ответ, модель может быть остановлена на любом этапе с промежуточным результатом. Это открывает возможности для адаптивного управления вычислительным бюджетом в зависимости от сложности задачи.

Границы и открытые вопросы

Работа имеет важные ограничения. Во-первых, оценка проведена только на математических задачах средней сложности. Как поведёт себя RiM на логических рассуждениях, планировании или программировании — открытый вопрос. Во-вторых, оптимальное количество блоков памяти зависит от задачи, и методика их динамического выбора не разработана. В-третьих, интерпретируемость латентных представлений остаётся ограниченной: мы видим, что блоки кодируют задачерелевантную информацию, но не можем прочитать эту информацию так же легко, как текстовую цепочку рассуждений.

Ещё один тонкий момент: отвязка рассуждений от языка означает потерю естественной проверяемости. Chain-of-thought позволяет человеку прочитать ход мысли модели и найти ошибку. С RiM промежуточные состояния спрятаны в векторном пространстве, и отладка требует специальных инструментов визуализации. Это классический компромисс между эффективностью и прозрачностью.

Часто задаваемые вопросы

В чём главное отличие RiM от Coconut?

Coconut заменяет текстовые шаги на непрерывные представления, но сохраняет пошаговую автрегрессивную генерацию. RiM использует фиксированные блоки памяти, обрабатываемые за один проход, полностью развязывая вычисление от генерации. Это даёт сопоставимую точность при существенно меньшей задержке.

Почему два этапа обучения, а не один?

Предварительные эксперименты показали, что прямое обучение с блоками памяти без промежуточного надзора даёт недостаточно плотный сигнал. Первый этап «приземляет» блоки, заставляя их предсказывать конкретные шаги рассуждения. Второй этап отучивает от текстовой опоры, переводя модель на автономное латентное мышление.

Можно ли применить RiM к уже обученным большим моделям?

Работа демонстрирует дообучение моделей масштабов GPT-2 и Llama-3.2-1B. Теоретически метод применим и к большим моделям, но потребует значительных вычислительных ресурсов для обучения. Практическая адаптация к моделям весом 70B+ параметров пока не исследована.

Итог

Reasoning in Memory предлагает элегантный способ отделить вычисление от коммуникации в языковых моделях. Вместо того чтобы заставлять модель «думать вслух» на человеческом языке, RiM выделяет внутреннее рабочее пространство, где рассуждения протекают без синтаксических ограничений. Результат — сопоставимая с chain-of-thought точность при задержке, сравнимой с прямым ответом.

Это не означает, что текстовые рассуждения уйдут в прошлое. Для задач, где интерпретируемость важнее скорости — медицинская диагностика, юридический анализ, научное рецензирование — явная цепочка шагов остаётся ценной. Но для сценариев, где задержка критична — чат-боты в реальном времени, агенты с высокой частотой запросов, edge-устройства — латентные рассуждения через рабочую память открывают принципиально новый режим работы. Вопрос не в том, заменит ли RiM chain-of-thought, а в том, как быстро индустрия освоит гибридные подходы, где модель сама решает, когда думать вслух, а когда — молча.