Tapered Language Models: почему ранние слои важнее

Graph neural networks, state space models, gated attention, Titans — все они используют один и тот же паттерн: стек идентичных слоёв, где каждый слой состоит из токен-mixing модуля и MLP-блока. Исторически считалось, что параметры MLP нужно распределять равномерно по всей глубине. Tapered Language Models ломают это допущение — и получают заметный прирост качества без увеличения бюджета.

Исследование, опубликованное в июне 2026 года, проверяет простую гипотезу: что если неравномерно распределить MLP-ёмкость — шире в early layers, уже в deep layers — при фиксированном общем количестве параметров? Ответ — perplexity падает с 16.28 до 14.44 на 440M модели, и улучшение масштабируется на 760M и 1.3B.

Что такое Tapered LM

Tapered Language Models — архитектурный принцип, при котором ширина MLP-слоя монотонно уменьшается с глубиной модели. Идея простая: ранние слои обрабатывают больше новой информации, а глубокие слои всё больше «шлифуют» уже обработанное. Если параметры MLP драгоценны, имеет смысл дать больше ёмкости туда, где она приносит реальную пользу.

Конкретно: вместо фиксированного множителя d_ff = 4d (классическое соотношение в трансформерах со времён оригинальной статьи 2017 года), TLM применяют cosine-расписание, которое плавно снижает ширину от 1.5× d до 0.5× d. Всего три варианта schedule тестировались: step-wise (ступенчатое снижение), linear (линейное) и cosine (косинусоидальное). Cosine победил на всех масштабах и архитектурах.

Важно понимать: параметры и FLOPs остаются теми же. Модель не становится «больше» — она становится «умнее» за счёт перераспределения существующего бюджета. Это делает подход особенно практичным для production environments, где инференс бюджет ограничен.

Ключевые результаты

На 440M трансформере validation perplexity падает с 16.28 до 14.44 — улучшение на 1.84 балла. Это получено при идентичном количестве параметров и вычислительных затрат на обучение. Эффект не артефакт маленькой модели: на 760M и 1.3B улучшение сохраняется.

Результат воспроизводится на принципиально разных архитектурах. Стандартный Transformer с softmax attention — классика. Gated Attention — добавляет output gating, убирает attention sinks и улучшает sparsity. Hope-attention — nested-learning архитектура с памятью на нескольких частотах. Titans — attention с нейронной long-term memory, которая адаптируется во время теста. На всех четырёх семействах cosine-тaper даёт прирост. Это означает, что принцип действует независимо от того, какой именно токен-mixing модуль стоит в основе.

Выбор диапазона тоже важен. Sweep по соотношению d_start / d_end показывает U-образную зависимость: слишком агрессивный taper (например, 3.0→0.25) уже ухудшает качество. Слишком мягкий (2.0→0.75) не даёт выигрыша. Оптимум находится около 1.5→0.5, что и стало рекомендуемым дефолтом для всех экспериментов в статье.

Почему это работает: Layer-wise Novelty

Исследователи не просто показали результат — они объяснили механику. Для этого введены две метрики: block-update cosine и MLP-only cosine. Первая измеряет, насколько общий прирост слоя согласован с текущим residual потоком. Вторая — насколько выход MLP specifically коррелирует с тем, что уже есть.

Формула ρ_MLP = cos(ℱ_l(z_l), h_l) показывает: по мере углубления модели выход MLP всё больше совпадает с уже существующим residual состоянием. Глубокие слои не генерируют принципиально новую информацию — они «дошлифовывают» то, что было создано раньше. Ранние слои, напротив, выдают контент, слабо коррелирующий с предыдущим состоянием — то есть реально добавляют новые признаки в представление.

Block-update формула ρ_block = cos(h_{l+1} - h_l, h_l) подтверждает: чем глубже слой, тем сильнее его вклад согласован с тем, что уже было. Модель постепенно конвергирует к уже устоявшимся представлениям, а не открывает новые.

Это объясняет, почему narrowing работает: если поздние слои всё равно не создают принципиально нового контента, зачем тратить на них столько же параметров, сколько на early layers? Tapered архитектура просто приводит ёмкость в соответствие с тем, что слои реально делают.

Детали training setup

Чтобы результаты были корректными, авторы стандартизировали все гиперпараметры между uniform и tapered конфигурациями. Обучались на Llama 3 tokenizer (vocabulary size 32K), sequence length 4K tokens. 440M, 760M и 1.3B модели тренировались на 30B, 50B и 100B токенах соответственно. AdamW optimizer, cosine annealing schedule, peak learning rate 4×10⁻⁴, weight decay 0.1, global batch size 0.5M tokens. Optimizer state, learning rate и все остальные гиперпараметры — идентичны между baseline и tapered. Единственная разница — per-layer MLP intermediate dimension.

Сравнение公平ное: никаких additional tuning для tapered версий. Schedule и ratio отобраны на 440M, затем перенесены на большие модели без изменений. Это важно для воспроизводимости — результат не obtained via extensive hyperparameter search specifically tuned for each model size.

Архитектурное family-agnostic

Отдельного внимания заслуживает то, что TLM работают на совершенно разных механизмах token-mixing. Transformer — стандартный softmax attention. Gated Attention — альтернатива с gating mechanism, которая убирает проблему attention sinks и позволяет более sparse attention patterns. Hope-attention использует multiple frequency bands для memory, что принципиально отличается от attention-based подходов. Titans добавляют learnable neural memory, которая работает orthogonally к attention.

На всех четырёх TLM показывают улучшение. Это сильный аргумент в пользу того, что principle применим широко, а не является специфичным для конкретной архитектуры. Если бы результат был только на standard Transformer, можно было бы предположить что-то специфичное для softmax attention. Но он воспроизводится на fundamentally different token-mixing mechanisms.

Практические следствия

Для инженеров, оптимизирующих inference, результат даёт бесплатное улучшение. Достаточно изменить schedule распределения параметров при инициализации модели — и получить более качественный output без дополнительных вычислительных затрат. Никакого увеличения latency, никакого дополнительного VRAM. В production environments это означает lower cost per inference при том же качестве.

Для исследователей TLM предлагают новый инструмент анализа. Layer-wise novelty measurement применим к любым моделям, не только TLM. Можно исследовать, где именно в конкретной архитектуре происходит transition от «генерации нового» к «шлифовке существующего» — и использовать это для принятия архитектурных решений. Это открывает direction для future work: можно было бы динамически выбирать taper schedule based on measured novelty profiles rather than using a fixed formula.

Для MoE-направления (Mixture of Experts) принцип тоже релевантен. Количество experts — ещё одна ось для tapering. Распределение expert count неравномерно по глубине может дать аналогичные преимущества. Early layers скорее всего выиграют от большего числа experts — там происходит больше novelty. Авторы оставляют это как открытый вопрос.

Как это соотносится с существующим знанием

Попытки неравномерно распределять ресурсы по глубине уже предпринимались. Funnel Transformer сжимает sequence length по мере углубления, уменьшая compute для deeper layers. Mixture-of-Depths маршрутизирует вычисления динамически, пропуская certain layers для specific tokens на основе learned routing decisions. Некоторые работы варьируют attention head count по глубине.

TLM отличается тем, что работает с static параметризацией и не требует dynamic routing или changes to attention mechanism. Это проще для имплементации и деплоя — никаких дополнительных модулей, никакой latency variance.公式 d_ff(l) = d × (0.5 + 0.5 × cos(π × l/L)) — это всё, что нужно. Один параметр, один schedule, zero overhead.

State space models, RWKV, Retentive networks, Liquid neural networks, Titans — все они используют stacking идентичных слоёв с равномерным распределением параметров. TLM показывает, что даже в этих архитектурах есть room for improvement через allocation — без смены token-mixing парадигмы.

Ограничения и открытые вопросы

Авторы честно признают главное ограничение: sweep по schedule и width-ratio проведён только на 440M Transformer. Для 760M и 1.3B рекомендуемые значения (cosine, 1.5→0.5) перенесены без изменений. Это работает — но может быть не оптимально. Как лучший schedule зависит от масштаба модели, глубины, Frac parameters allocated to MLP, token-mixing архитектуры или training budget — открытый вопрос.

Возможно, для larger models оптимальный диапазон сдвигается. Также авторы тестировали только decoder-only архитектуры. Encoder-only BERT-подобные модели могут показать другие закономерности.

Future directions включают: применение принципа к другим осям (attention head count, key-value dimension, recurrent state size, memory slot count, expert count в MoE), development of dynamic tapering that adjusts during training, и investigation of optimal schedules for specific downstream tasks.

FAQ

Это увеличивает inference time? Нет. При фиксированном бюджете параметров и FLOPs поздние слои становятся дешевле вычислительно, потому что MLP там уже. Суммарные затраты на inference не растут.

Какой schedule выбрать? Cosine schedule с диапазоном 1.5→0.5 — наиболее надёжный вариант, показавший лучшие результаты на всех масштабах (440M, 760M, 1.3B) и всех архитектурах (Transformer, Gated Attention, Hope-attention, Titans). Step-wise и linear менее эффективны при одинаковом budget.

Работает ли это на encoder-only моделях? Авторы проверяли только decoder-only языковые модели. Принцип «больше параметров там, где больше novelty» может распространяться и на encoder-only BERT-подобные модели, но это требует отдельной экспериментальной проверки.

Почему именно MLP, а не attention heads? MLP — основной потребитель параметров в трансформерах (около 2/3 от общего числа). Но attention head count, key-value dimension, recurrent state size, memory slot count — все это потенциальные кандидаты для tapering в будущих работах. Авторы explicitly называют эти directions.

Можно ли применять это к уже обученным моделям? В текущей версии — нет. Tapered schedule применяется при инициализации и влияет на trajectory обучения. Для fine-tuned моделей потребовалось бы отдельное исследование — возможно, с использованием knowledge distillation из tapered model в untapered.

Итог

Tapered Language Models — простой и строго обоснованный архитектурный приём. Ключевой инсайт: early layers содержат больше «нового» контента, и архитектура, которая это учитывает, работает лучше. Cosine-тaper MLP width от 1.5×d к 0.5×d даёт измеримый прирост perplexity без дополнительных затрат — независимо от того, какой token-mixing модуль используется в модели.

Для практического применения достаточно знать одну формулу: d_ff(l) = d × (0.5 + 0.5 × cos(π × l/L)), где l — номер слоя, L — общее число слоёв. Это и есть cosine-taper schedule, дающий лучший результат на сегодняшний день. Принцип уже воспроизводится на 4 архитектурных семействах — и это только начало. Следующие кандидаты для применения: MoE expert count, attention head dimensions, memory slot allocation.

← Все записи