Гибридные LLM против трансформеров: токенный разбор
Гибридные языковые модели, комбинирующие attention-слои с рекуррентными, последние два года активно претендуют на роль нового стандарта архитектуры LLM. Эмпирически они показывают более низкий лосс и лучшие результаты на бенчмарках — но что именно внутри предсказания токенов даёт им эту фору? И соответствует ли она теоретическим ожиданиям от рекуррентных слоёв?
Новое исследование Yanhong Li и William Merrill из Allen Institute for AI отвечает на эти вопросы прямым токенным анализом. Авторы сравнили Olmo 3 (чистый трансформер, 7B параметров) и Olmo Hybrid (гибридная архитектура, те же 7B) на одних и тех же последовательностях — и разложили разницу в лоссе по типам токенов. Результаты оказались втройне интереснее, чем предполагала абстрактная гипотеза.
Теоретическая база: что attention даёт, а что — рекуррентность
Чтобы понять, где какой механизм сильнее, исследователи обратились к теории вычислительной сложности.
Attention-слои позволяют трансформеру напрямую обращаться к любому токену в видимом контексте. Это делает механизм идеальным для двух задач: копирование n-грамм из префикса и структурное сопоставление (например, поиск парной скобки). Если в тексте встретилось «National Hamburger Association of America», следующий токен с высокой вероятностью будет снова «National» — attention просто скопирует его из позиции ранее в последовательности.
Рекуррентные слои, напротив, хороши для упорядоченного отслеживания состояния (ordered state tracking). Линейные RNN способны поддерживать латентное состояние документа, которое эволюционирует с каждым новым токеном, — это нужно для задач вроде отслеживания местоимений (он/она), сущностей (чьё имя связано с каким атрибутом) и дискурсивной структуры текста.
Теоретически, гибрид должен наследовать оба преимущества. Но эмпирически было непонятно, реализуется ли это на практике — и на каких именно токенах.
Методология: парное сравнение на уровне одного токена
Авторы использовали следующий подход: для каждой позиции i в последовательности вычислялась попарная разница лосса:
Δᵢ = ℒᵢᵀʳᵃⁿˢᶠᵒʳᵐᵉʳ − ℒᵢᴴʸᴮᴿᴵᴰ = log p_HYBRID(xᵢ | x<ᵢ) − log p_TRANSFORMER(xᵢ | x<ᵢ)
Положительное значение Δ означает, что гибрид assignит более высокую вероятность истинному токену. Далее результаты стратифицировались по тегам: части речи (POS tags из Brown tagset), типы разделителей в коде и разметке, наличие повторяющихся n-грамм.
Моделей тестировались на четырёх доменах: проза (PG-19, CC-News, Wikipedia, ArXiv), Python-код, HTML-разметка и LaTeX.
Результат 1: открытые части речи выигрывают, закрытые — почти нет
На прозе гибрид показывает значимое преимущество на content words — существительных, глаголах, прилагательных, наречиях: 0.0384 nats. Для function words — артиклей, предлогов, союзов — преимущество меньше: 0.0238 nats. Разница составляет около 61% в пользу открытых классов.
Иными словами, когда модель предсказывает «компьютер» после «мощный» — гибрид с рекуррентными слоями справляется заметно лучше трансформера. Когда предсказывает «the» после «on» — преимущество минимальное.
Это контринтуитивно, если думать о function words как о «простых» словах. На самом деле их предсказание часто опирается на локальные паттерны и копирование из недавнего контекста — как раз то, что хорошо даётся attention. Content words, напротив, требуют понимания долгосрочной дискурсивной структуры — и здесь рекуррентные слои добавляют информации.
Результат 2: открытые разделители vs закрытые
В структурированных доменах (код, HTML, LaTeX) обнаружился ещё более чёткий паттерн. На открывающих разделителях (открывающая скобка, открывающий тег) гибрид имеет преимущество. На закрывающих — трансформер нередко выигрывает.
Объяснение: закрывающий разделитель часто предсказуем чисто синтаксически — если перед нами (something, следующий токен с высокой вероятностью ). Это задача структурного сопоставления, которую attention решает напрямую, обратившись к соответствующему opener. Рекуррентным слоям нужно сначала обновить состояние, а потом из него извлечь информацию — менее эффективно для чисто локальной задачи.
Открывающий же разделитель — это создание новой синтаксической единицы, начало нового состояния. Это ближе к ordered state tracking, где рекуррентные слои сильнее.
Результат 3: на повторяющихся n-граммах гибрид не имеет преимущества
Наиболее показательный результат: на токенах, завершающих повторяющуюся n-gram (последовательность из 3-5 одинаковых токенов подряд), преимущество гибрида практически исчезает. Attention здесь работает в своём родном режиме: видит все предыдущие вхождения и просто копирует. Рекуррентные слои не добавляют ничего — задача не требует поддержания состояния, только检索.
Это, пожалуй, самый чистый результат во всей работе: есть конкретная вычислительная задача, где attention достаточно, и добавление рекуррентности не помогает.
Синтетические проверки:controlled probes
Авторы также проверили три типа синтетических задач с контролируемым расстоянием до antecedent (от 32 до 1024 токенов):
Pronoun memory (задача на запоминание): ввести двух персонажей разного пола, затем поставить местоимение. Гибрид значимо лучше при больших дистанциях — состояние, накопленное рекуррентными слоями, сохраняет информацию о гендере дольше.
Entity tracking (отслеживание сущностей): привязать два объекта одного пола к разным атрибутам, затем запросить атрибут по имени объекта. Аналогичный паттерн — гибрид впереди на больших дистанциях.
Bracket matching (закрытие скобок): открыть структуру, вставить filler, запросить закрывающий токен. Здесь трансформер, наоборот, имеет преимущество — это чисто attention-задача.
Практический вывод: фильтрованные метрики вместо агрегатного лосса
Один из наиболее практически ценных результатов работы — демонстрация того, что агрегатный validation loss разбавляет сигнал от архитектурных различий. Большинство токенов в любом корпусе — «лёгкие»: их предсказывает любой разумный language model. Systemатическая, но небольшая разница на 20% токенов может быть полностью скрыта 80% «шумных» лёгких позиций.
Авторы предлагают filtered evaluation — отслеживание лосса не на всех токенах, а только на подмножествах, релевантных конкретной архитектуре. Например, Top-10 hybrid-favored POS families без позиций копирования n-грамм — этот фильтр усиливает сигнал и позволяет видеть архитектурные различия на ранних этапах обучения, когда агрегатный лосс ещё слишком груб.
В доказательство концепции авторы проанализировали чекпоинты 1B-моделей из training runs Merrill et al. (2026): Transformer, Hybrid и Pure RNN. На агрегатном лоссе кривые практически неразличимы. На фильтрованных метриках (state-oriented фильтр) Hybrid и Pure RNN заметно отрываются от Transformer — и делают это уже на ранних чекпоинтах.
Что это значит для индустрии
Исследование даёт несколько конкретных инсайтов для разработчиков:
При выборе архитектуры важно понимать, какие токены преобладают в домене. Для задач с длинными зависимостями, сложной дискурсивной структурой и большим количеством контентных слов гибрид даст ощутимое преимущество. Для задач с преобладанием копирования, синтаксических паттернов и локальных конструкций — чистый трансформер может быть достаточен.
При оценке моделей агрегатный лосс — тупой инструмент. Фильтрованные метрики на конкретных семействах токенов позволяют раньше диагностировать проблемы: если numeric literals систематически недорабатывают — нужен dataset про математику; если closing delimiters хуже ожидаемого — проблема в attention heads, не в рекуррентных слоях.
При дообучении и RLHF токенный профиль позволяет точнее интерпретировать изменения. Ухудшение на function words при улучшении на content words может означать, что оптимизация пошла в «глубокую семантику», а не в синтаксическую точность.
Почему теория экспрессивности предсказывает именно этот раскол
Теоретическая рамка работы опирается на классическое разделение вычислительной сложности для языковых моделей. Трансформеры с ограниченной глубиной и логарифмической точностью попадают в класс TC⁰ — это означает, что они принципиально не могут выразить задачи, требующие общего упорядоченного состояния (класс NC¹). Линейные RNN, напротив, при достаточно выразительной нелинейности способны на такие вычисления.
Практический вывод из этой теории: attention «срезает» задачу копированием из префикса, а recurrence «строит» состояние. Если задача решается копированием — attention достаточно, и рекуррентные слои не добавляют значения. Если задача требует упорядоченного обновления состояния — рекуррентные слои дают преимущество, которое attention может получить только через repeated self-attention к каждому предыдущему токену (что вычислительно дорого и практически редко достигает идеала).
Именно этот теоретический раскол авторы наблюдают эмпирически: открывающие разделители — это создание нового состояния; закрывающие — предсказуемы через локальное сопоставление. Content words — семантически зависимы от дискурсивного состояния; function words — часто копируемы или локально детерминированы.
Как это влияет на практические архитектурные решения
Результаты исследования напрямую влияют на несколько практических сценариев.
Выбор между гибридом и трансформером для конкретного домена. Если ваш корпус — длинные юридические документы, научные статьи или литературная проза, где семантические зависимости простираются на сотни токенов, гибридная архитектура даст ощутимый выигрыш на content words. Если корпус — код с преобладанием синтаксических паттернов, закрывающих скобок и локального копирования, чистый трансформер может быть достаточен и более эффективен по памяти.
Диагностика underperformance модели. Когда модель показывает высокий лосс на конкретном датасете, токенный анализ позволяет понять почему. Высокий лосс на content words при нормальном лоссе на function words — проблема в семантическом понимании. Высокий лосс на closing delimiters — проблема в attention heads, не в рекуррентных слоях.
Анализ эффекта от дообучения. При дообучении на специфическом домене изменение токенного профиля показывает, что именно изменилось. Улучшение на content words + ухудшение на function words может означать, что модель переобучилась на семантику в ущерб синтаксису — или наоборот.
FAQ
Гибридные модели всегда лучше трансформеров? Нет. Преимущество гибрида не uniformное — оно концентрируется на open-class content words, открывающих разделителях и задачах с далёкими зависимостями. На задачах копирования n-грамм и закрывающих скобках трансформер нередко выигрывает.
Почему function words предсказывать проще, но гибрид на них меньше выигрывает? Потому что function words часто предсказуемы через локальный контекст и копирование — это как раз strong suit attention. Content words требуют понимания долгосрочной структуры текста, где рекуррентные слои добавляют информации.
Как фильтрованные метрики помогают при обучении? Они позволяют увидеть архитектурные различия на ранних чекпоинтах, когда агрегатный лосс ещё слишком размыт. Это ускоряет диагностику и позволяет раньше принимать решения о данных или архитектуре.
Какие модели использовались в исследовании? Olmo 3 7B (чистый трансформер) и Olmo Hybrid 7B от Allen Institute for AI. Обе модели из одного семейства рецептов — идентичный токенизатор, микс данных и процедура обучения. Это делает разницу в лоссе следствием именно архитектуры, а не обучающих факторов.
Можно ли экстраполировать результаты на другие гибридные архитектуры? Исследование проведено на конкретной реализации Olmo Hybrid с GDN-слоями (Gated Delta Networks). Результаты подтверждают общую теорию экспрессивности attention vs recurrence, но количественные значения (0.0384 nats преимущества) специфичны для этой архитектуры. Другие гибридные реализации — Mamba, RWKV, RetNet — могут показывать другие значения, хотя качественный паттерн должен сохраняться.
Что с scaling laws — масштабирование убирает эту разницу? Теоретически — нет. Разница между attention и recurrence — это фундаментальное различие в вычислительной экспрессивности, а не проблема размера модели. Однако на практике более крупные модели могут «эмулировать» эффект рекуррентных слоёв через более длинный контекст и больше attention heads. Фильтрованные метрики должны показывать разницу и на больших масштабах, хотя абсолютные значения nats будут другими.
Как это связано с задачами на рассуждения (reasoning)? Reasoning-задачи часто требуют упорядоченного отслеживания состояния — промежуточных вычислений, переменных, цепочки логических шагов. Гибридные модели с их преимуществом на ordered state tracking должны показывать лучшие результаты именно на задачах, где нужно удерживать и обновлять состояние рассуждения на протяжении длинной цепочки. Это объясняет, почему гибридные архитектуры показывают сильные результаты на математических бенчмарках и задачах программирования, требующих многошагового вывода.
Токенный анализ — мощный инструмент для понимания того, что на самом деле делает языковая модель. Вместо одного агрегатного числа исследование раскладывает предсказания на составляющие и показывает: архитектурные компромиссы между attention и recurrence — это не абстрактная теория, а конкретные типы токенов, где один механизм выигрывает, а другой проигрывает. Если вы проектируете архитектуру или выбираете модель для задачи — знание этих нюансов может быть решающим.