DiffusionGemma: прозрачность диффузионных моделей под микроскопом
Диффузионные языковые модели завоевали популярность в 2025 году. Они генерируют текст не последовательно, а «разворачивая» шум в осмысленные токены — как фотография проявляется в ванночке с реактивами. Такой подход позволяет редактировать уже сгенерированный фрагмент, недоступный в авторегрессионных моделях. Но возникает вопрос: если модель работает в латентном пространстве, насколько мы понимаем, что происходит у нее «в голове»?
Группа исследователей из Google DeepMind и Center for Human-Compatible AI взялась ответить на этот вопрос. Результат — статья «How Transparent is DiffusionGemma?» с разбором архитектуры, метрик и неожиданных способностей диффузионной Gemma.
Что такое прозрачность и почему она важна
Прозрачность рассуждений языковой модели — это не абстрактная философия. Это инструмент безопасности и отладки. Когда модель выдает опасный или неожиданный ответ, исследователям нужно понять, на каком этапе цепочка рассуждений пошла по неверному пути.
Исследователи разделили прозрачность на два компонента. Первый — переменная прозрачность (variable transparency): можем ли мы интерпретировать промежуточные состояния модели, «снимки» ее вычислений? Второй — алгоритмическая прозрачность (algorithmic transparency): можем ли мы по этим снимкам восстановить весь процесс, который привел к финальному ответу?
Авторегрессионные модели здесь в выигрышной позиции. Каждый сгенерированный токен становится частью контекста для следующего — цепочка рассуждений записана в последовательности токенов. У диффузионных моделей все сложнее: процесс идет в непрерывном латентном пространстве, а не в дискретной последовательности.
Opaque Serial Depth: 28.6X — вот так много
Первая метрика, которую ввели исследователи — opaque serial depth. Это объем серийных вычислений между интерпретируемыми состояниями модели. Если в авторегрессионной Gemma 4 между двумя «читаемыми» токенами происходит N шагов, то в DiffusionGemma их оказалось в 28.6 раз больше. На первый взгляд — катастрофа для прозрачности.
Но потом исследователи заметили кое-что важное. Между шагами денойзинга информация проходит через интерпретируемый токенный узкий место — token bottleneck. Модель «сжимает» информацию в компактный набор токенов на каждом шаге, и этот набор можно анализировать.
Когда исследователи научились правильно интерпретировать эти токены-посредники, opaque serial depth упал с 28.6X до 1.1X от уровня Gemma 4. То есть разница практически исчезла. Без потери качества на downstream-задачах.
Это центральный результат работы: диффузионные модели не менее прозрачны — мы просто не смотрели на них правильно.
Monitorability: DiffusionGemma не хуже Gemma 4
Monitorability — практическая метрика. Она измеряет, насколько промежуточные состояния модели полезны для downstream-задач. Можно ли по «внутренностям» модели предсказать, хорошо ли она справится с задачей? Можно ли использовать интерпретацию для мониторинга?
Исследователи протестировали DiffusionGemma и Gemma 4 на широком наборе задач и обнаружили: DiffusionGemma одинаково мониторибельна с Gemma 4. Это важно для применения в системах безопасности — диффузионная архитектура не создает дополнительных барьеров для наблюдаемости.
Diffusion-specific феномены: то, чего нет у авторегрессионных моделей
Вот где становится по-настоящему интересно. Исследователи обнаружили три класса поведения, характерных именно для диффузионных моделей.
Non-chronological reasoning — рассуждения вне хронологии
Авторегрессионная модель генерирует токены по порядку: сначала первый, потом второй, третий. DiffusionGemma может менять порядок «мыслей». Исследователи нашли три проявления этого феномена.
Early response length prediction — модель на ранних шагах денойзинга «знает» примерную длину финального ответа. Она как бы заглядывает в конец, прежде чем сгенерировать начало.
Retroactive self-correction — модель способна «передумать». Токен, который был высоко вероятным на ранних шагах, отбрасывается на поздних. Авторегрессионные модели тоже могут переписывать, но там это требует отдельного шага (self-repair). Здесь это встроено в сам процесс.
Non-autoregressive code generation — в коде модель может сгенерировать все тело функции, а затем «прикрепить» правильное имя переменной в начало. Это противоречит тому, как написал бы код человек.
Token and sequence smearing
Token smearing — информация «размазывается» по нескольким позициям. Токен, который «отвечает» за определенную концепцию, оставляет следы в соседних позициях, хотя формально они независимы.
Sequence smearing — обратная ситуация. Несколько токенов «голосуют» за одну позицию в выводе. Финальный ответ оказывается консенсусом, а не результатом работы одного «ответственного» токена.
Для интерпретируемости это создает сложности: нельзя указать на один токен и сказать «вот этот отвечает за X». Зато это объясняет, почему диффузионные модели устойчивы к отдельным ошибкам — консенсусный механизм работает как естественный ensemble.
Intermediate-context reasoning
Модель способна «заглядывать» в будущий контекст на промежуточных шагах денойзинга. На ранних этапах она уже «видит», что будет в конце ответа, и адаптирует промежуточные токены соответственно. Это не хаотическое свойство — это контролируемый процесс, который можно анализировать через token bottleneck.
Почему это важно прямо сейчас
Диффузионные языковые модели набирают обороты. Они используются в инструментах Google для генерации кода и текста, в исследованиях безопасности AI, в системах, где важна возможность редактирования уже сгенерированного. Модель SemiRM от Google и другие диффузионные архитектуры расширяют.toolkit разработчиков.
Понимание прозрачности диффузионных моделей критично для нескольких сценариев. Безопасность AI: если мы не можем интерпретировать процесс рассуждений, мы не можем предсказать, когда модель пойдет в опасном направлении. Отладка: неожиданное поведение диффузионных моделей (non-chronological reasoning) может быть как багом, так и фичей — нужно уметь отличать. Регуляторика: будущие стандарты AI-безопасности, вероятно, потребуют мониторинговых возможностей от моделей. Результаты DiffusionGemma показывают, что диффузионная архитектура не создает фундаментальных барьеров.
Практические следствия для инженеров и исследователей
Если вы строите на диффузионных моделях или выбираете архитектуру для нового проекта, есть несколько практических выводов из этой работы.
Token bottleneck — главная точка для интерпретации. Это не просто архитектурная деталь, а основной канал для наблюдения за процессом рассуждений. Именно через эти токены можно «подглядывать» за моделью без погружения в латентное пространство. Если задача требует мониторинга модели (content moderation, safety filtering, compliance), диффузионные модели справляются не хуже авторегрессионных.
Non-chronological reasoning — это не ошибка, а особенность. Модель может «передумать» на поздних шагах денойзинга. Токен, который был высоко вероятным на ранних этапах, отбрасывается в пользу более подходящего. Авторегрессионные модели тоже могут переписывать, но там это требует отдельного round-trip. В диффузионных моделях это встроено в сам процесс — и это можно использовать.
Smearing означает, что изолированный анализ отдельных токенов менее информативен. Для интерпретации полезнее смотреть на кластеры токенов и их консенсусное поведение. Это требует других инструментов — не layer-wise analysis, а attention-like aggregation по позициям.
Для safety-критических приложений результаты обнадеживают. Monitorability на уровне авторегрессионных моделей означает, что стандартные подходы к safety monitoring применимы и к диффузионным архитектурам. Не нужно изобретать новую методологию с нуля.
FAQ
Что осталось за кадром
У работы есть ограничения. Исследователи изучали DiffusionGemma — одну конкретную архитектуру. Насколько результаты обобщаются на другие диффузионные модели, пока открытый вопрос. Алгоритмическая прозрачность (возможность полностью восстановить процесс по снимкам) остается сложнее для диффузионных моделей, чем для авторегрессионных: на каждом шаге денойзинга все токены в canvas могут измениться, что дает модели возможность реализовывать «распределенные алгоритмы».
Команда упоминает несколько направлений для будущей работы: дальнейшее понимание DiffusionGemma через mechanistic interpretability, адаптация стандартных инструментов интерпретации (существующие методы заточены под авторегрессионные модели), и research на моделях-задачах (model organism research) — когда одну модель изучают очень глубоко, чтобы построить интуицию для класса.
Архитектура DiffusionGemma: от шума к тексту
DiffusionGemma основана на архтектуре Gemma 4, но заменяет стандартный авторегрессионный декодер на диффузионный. Модель итеративно преобразует распределение текста, начиная с шума и постепенно «проявляя» осмысленные токены.
Ключевое архитектурное решение — token bottleneck. На каждом шаге денойзинга модель проецирует латентное представление в компактный набор C токенов (где C намного меньше длины последовательности). Эти токены и становятся главным объектом для интерпретации. Через них течет информация между шагами, и их можно «прочитать» без погружения в непрерывное латентное пространство.
Исследователи используют Entropy-Bounded (EB) sampling для выбора токенов: на каждом шаге вычисляется энтропия распределения денойзера по словарю, затем выбираются позиции с наименьшей энтропией — самые «уверенные» предсказания. Остальные позиции заменяются случайными токенами и повторно денойзятся. Это позволяет фокусировать вычислительные ресурсы на неопределенных участках.
Training infrastructure и данные
Модель обучалась на смеси данных, включая веб-тексты, научные статьи и код. Архитектура диффузионного декодера потребовала модификации процедуры обучения: стандартный teacher forcing не применим, когда все токены могут измениться на каждом шаге. Вместо этого используется schedule денойзинга, где модель учится предсказывать «чистый» текст из зашумленного с различными уровнями шума.
Сравнение с конкурирующими подходами
SemiRM (Google) и другие диффузионные LLM занимают нишу задач, где требуется итеративное уточнение. Авторегрессионные модели генерируют последовательность один раз — исправления требуют отдельного round-trip. Диффузионные модели могут «переписывать» произвольные участки в рамках одного forward pass.
Главный практический вопрос: насколько диффузионные модели уступают авторегрессионным в качестве? Работа не ставит этот вопрос напрямую, но результаты по monitorability показывают паритет на downstream-задачах. Разрыв в прозрачности, который казался фундаментальным, оказывается решаем инженерными методами.
FAQ
DiffusionGemma медленнее авторегрессионных моделей? Диффузионные модели требуют итеративного прохода (typically 20–50 шагов денойзинга). Это увеличивает latency, но позволяет параллельно уточнять все токены. Для задач, где важен final quality, а не first-token latency, диффузионный подход может быть предпочтительнее.
Можно ли использовать token bottleneck для steering? Исследователи не тестировали steering явно, но логика предполагает возможность. Token bottleneck — это контролируемая проекция латентного состояния. Вмешательство в эти токены должно влиять на процесс рассуждений — аналогично activation steering в авторегрессионных моделях, но с дополнительной возможностью групповой коррекции через smearing.
Почему smearing — это не проблема? Smearing означает, что информация распределена. Для надежности это плюс: модель не зависит от одного токена. Для интерпретации это минус: нельзя атрибутировать решение отдельному нейрону. Но aggregate-анализ через token bottleneck позволяет «видеть» консенсус, даже когда отдельные токены нечитаемы.
Итог
Диффузионные языковые модели — не черный ящик. При правильном подходе к интерпретации их прозрачность сопоставима с авторегрессионными моделями. Opaque serial depth 28.6X превращается в 1.1X через анализ token bottleneck — и это главный методологический вклад работы.
Но главнее практические находки: диффузионные модели способны на рассуждения вне хронологии, самоисправление и «размазывание» информации по последовательности. Эти способности не баги — они встроены в архитектуру. И для безопасности AI важно понимать их природу, пока диффузионные модели не стали повсеместными.
Источник: How Transparent is DiffusionGemma?, arXiv:2606.20560, июнь 2026.