Mamba и State Space Models: может ли змея заменить трансформер
В 2017 году Google выпустил Attention Is All You Need, и трансформеры захватили мир ИИ. Сегодня GPT-5, Gemini, Claude и почти все значимые модели построены на этом механизме внимания. Но у трансформеров есть ахиллесова пята: чем длиннее контекст, тем медленнее и дороже работа модель. Квадратичная сложность attention делает миллионный контекст нереальным для большинства задач.
Mamba — архитектура от Albert Gu и Tri Dao, представленная в декабре 2023 года — предлагает другой путь. State Space Model с селективным механизмом обещает сопоставимое качество при линейной сложности и контексте до миллиона токенов. Это не просто ещё одна оптимизация. Это попытка переосмыслить сам принцип, по которому модели помнят прошлое.
Что такое State Space Model
State Space Model, или SSM, пришла в машинное обучение из теории управления. Идея простая: система имеет скрытое состояние, которое обновляется с каждым новым наблюдением, и из этого состояния генерируется выход. Формально это два уравнения: h'(t) = A·h(t) + B·x(t) описывает, как состояние эволюционирует под влиянием входа, а y(t) = C·h(t) + D·x(t) — как из состояния получается выход.
Здесь h — скрытое состояние, x — входной токен, y — предсказание. Матрица A отвечает за то, как состояние забывает старое информацию. Матрица B решает, какую часть нового входа запомнить. Матрица C использует состояние для предсказания. Матрица D — модифицированная skip-connection, которая пропускает вход напрямую к выходу.
Ключевое свойство: состояние — это компрессия прошлого. В теории, если состояние выбрано правильно, оно содержит всё необходимое для предсказания будущего. Не нужно хранить всю историю токенов, как в трансформерах. Достаточно одного вектора фиксированного размера.
Почему трансформеры сталкиваются со стеной
В трансформере каждый новый токен «смотрит» на все предыдущие через механизм внимания. Это даёт феноменальное качество: модель может точно процитировать факт из середины десятистраничного документа. Но цена высока. Время обучения растёт квадратично с длиной последовательности — O(n²). Память для KV-cache растёт линейно — O(n). При контексте в миллион токенов это означает огромные затраты GPU и неприемлемую задержку на каждый новый токен.
FlashAttention, sliding window attention, Ring Attention — всё это оптимизации внутри парадигмы. Они смягчают симптомы, но не лечат болезнь. Квадратичная сложность остаётся. Для задач вроде анализа генома, обработки видео или долгосрочной памяти агентов нужен принципиально другой подход.
От непрерывного времени к дискретным токенам
SSM изначально формулируется в непрерывном времени, но языковые модели работают с дискретными токенами. Mamba использует Zero-Order Hold дискретизацию для перехода от дифференциального уравнения к разностному: hₜ₊₁ = Ā·hₜ + B̄·xₜ. После дискретизации структура напоминает рекуррентную нейронную сеть: новое состояние — функция от старого состояния и нового входа.
Но есть критическое отличие от классических RNN. В обычной RNN состояние обновляется одинаково для всех токенов — одни и те же веса, одна и та же динамика. В Mamba матрицы A и B зависят от самого входа. Это значит, что модель по-разному реагирует на разные токены: одни забывает быстро, другие запоминает надолго. Этот селективный механизм — сердце архитектуры.
Селективность: забывать осознанно
Стив Джобс на WWDC 1997 сказал: «Фокус — это умение говорить нет». Внимание в трансформерах работает positively: модель выбирает, на что смотреть. Mamba работает negatively: она выбирает, что забыть. Это фундаментально разные стратегии.
Трансформер хранит всю историю в KV-cache и решает, что важно, в момент обращения — recall time. Человек, напротив, фильтрует информацию в момент восприятия — memory-making time. Мы не помним каждую деталь дня, потому что подсознательно отбрасываем нерелевантное. Mamba делает то же самое: селективные матрицы A и B позволяют забывать рано и часто, сохраняя только то, что нужно для будущих предсказаний.
Это даёт компромисс между эффективностью и качеством. Традиционные RNN слишком много забывают — эффективны, но слабы. Трансформеры ничего не забывают — сильны, но неэффективны. Mamba пытается попасть на парето-фронтир: забывать осознанно, сохраняя при этом компактное состояние.
Скорость и масштабирование
Mamba-3B показывает результаты на уровне трансформеров того же размера и приближается к трансформерам вдвое крупнее. При этом на длинных последовательностях Mamba работает до пяти раз быстрее. Линейная сложность O(n) вместо квадратичной O(n²) означает, что миллионный контекст становится не теоретической возможностью, а практической реальностью.
Важно, что Mamba демонстрирует сопоставимые scaling laws с трансформерами. Это ключевой момент: предыдущие альтернативы attention часто работали на маленьких масштабах, но ломались при увеличении модели. Mamba сохраняет предсказуемый рост качества с ростом вычислений — то, что делает трансформеры привлекательными для индустрии.
Что Mamba меняет для практики
Самое интересное — не скорость обучения, а новые возможности, которые открывает архитектура. В трансформерах in-context learning работает через точное воспроизведение примеров из контекста. В Mamba in-context learning встроен в состояние. Это открывает парадигму state swapping: можно предвычислить состояние на специализированных данных и передавать его как плагин.
Представьте: вы прогоняете модель через двадцать учебников по физики и сто задач. Полученное состояние — это сжатый экспертный профиль. Передаёте его коллеге, и она задаёт вопросы без few-shot примеров, без длинного промпта, без дообучения. Состояние бесконечно переиспользуется без дополнительных затрат на инференс. Это дешевле RAG и проще файнтьюнинга.
Для агентов с долгосрочными целями Mamba решает проблему, которую трансформеры решают костылями. Когда история взаимодействий агента превышает контекстное окно, приходится суммаризировать. Но как решить, что важно, а что нет? Mamba учится этому естественно: состояние эволюционирует, сохраняя релевантное и отбрасывая шум. Это настоящая долгосрочная память, а не workaround в виде внешней базы данных.
Интерпретируемость и безопасность
В трансформерах интерпретируемость строится вокруг attention map: мы видим, какие токены влияют друг на друга. В Mamba информация передаётся через скрытое состояние, и анализ сложнее. Но состояние фиксированного размера проще для интервенций: можно патчить конкретные компоненты состояния и наблюдать эффект.
С точки зрения безопасности Mamba — двусторонний меч. С одной стороны, долгосрочная память делает агентов более предсказуемыми и последовательными. С другой — способность к долгосрочному планированию и instrumental goals требует новых подходов к alignment. Трансформеры с 8K контекстом ограничены в способности к манипуляции на длинных горизонтах. Mamba с миллионным контекстом — нет.
Гибридное будущее: не трансформер или Mamba, а и то, и другое
Авторы Mamba сами показывают, что оптимальное решение — гибрид. Attention отлично справляется с короткими последовательностями, где нужна высокая точность. SSM превосходен на длинных последовательностях, где важна эффективность. Для генерации видео можно использовать attention на последних кадрах для плавности и SSM на всей истории для нарративной целостности.
Это означает, что мы не входим в пост-трансформерную эпоху. Мы входим в эпоху, где трансформеры — не единственный вариант. Sasha Rush и Jonathan Frankle даже заключили пари: через три года нетрансформерные архитектуры займут значимую долю индустрии. Судя по тому, как быстро развиваются Mamba, Jamba, Griffin и другие SSM-модели, шансы есть.
Часто задаваемые вопросы
Заменит ли Mamba трансформеры полностью?
Нет, и авторы это не утверждают. На коротких последовательностях трансформеры остаются теоретически оптимальными, если хватает памяти. Mamba выигрывает на длинных контекстах и в задачах, требующих долгосрочной памяти. Будущее скорее за гибридными архитектурами.
Насколько реально использовать Mamba сегодня?
Mamba и её производные уже доступны в библиотеках вроде Hugging Face Transformers и State Spaces. Но экосистема моложе трансформерной: меньше предобученных моделей, меньше инструментов оптимизации, меньше production-кейсов. Для исследователей — отличный инструмент, для production — требует оценки рисков.
Что значит селективность на практике?
Вместо того чтобы обрабатывать каждый токен одинаковыми весами, Mamba решает для каждого токена индивидуально: запомнить или забыть, насколько сильно обновить состояние. Это похоже на то, как человек воспринимает информацию: заголовок статьи запоминается иначе, чем вспомогательный пример.
Итог
Mamba — не очередная оптимизация трансформера, а альтернативная парадигма обработки последовательностей. State Space Models с селективным механизмом предлагают линейную сложность, компактное состояние и контекст до миллиона токенов при сохранении качества. Для задач вроде анализа генома, обработки видео, долгосрочной памяти агентов и state swapping это может стать решающим преимуществом.
Но главное — Mamba доказывает, что attention не является единственным путём. После семи лет трансформерного доминирования индустрия наконец получила жизнеспособную альтернативу. Вопрос больше не в том, заменят ли SSM трансформеры. Вопрос в том, как быстро мы научимся использовать обе архитектуры там, где каждая сильна.