Диффузионные модели учатся говорить: зачем ELF бросает вызов GPT

Диффузионные модели учатся говорить: зачем ELF бросает вызов GPT

Все современные чат-боты — от ChatGPT до DeepSeek — работают по одному принципу: генерируют текст по одному токену, слева направо, как пишет человек. Этот подход называется autoregressive, и он доминирует в языковом моделировании с 2017 года. Но в мире изображений и видео уже давно правят другие — диффузионные модели, которые строят картинку постепенно, через множество мелких шагов, каждый раз уточняя детали. Почему бы не применить ту же логику к тексту? Исследователи из MIT задались этим вопросом и создали ELF — Embedded Language Flows. Их модель генерирует текст в непрерывном пространстве эмбеддингов, а не в дискретном пространстве токенов, и при этом показывает качество выше существующих диффузионных языковых моделей, используя в 10 раз меньше обучающих данных.

Что такое диффузионные языковые модели

Диффузионные модели (Diffusion Models) изначально придумали для изображений. Идея проста: берём чистую картинку, постепенно добавляем к ней шум до полной неразличимости, а затем учим нейросеть обратный процесс — восстанавливать исходное изображение из шума. На практике это работает так: модель получает на вход зашумлённую картинку и предсказывает, какой шум нужно вычесть, чтобы получить чуть более чистую версию. Повторяем шаг за шагом — и из белого шума медленно выкристаллизовывается осмысленное изображение.

Перенести эту логику на текст оказалось непросто. Изображения — это непрерывные данные: каждый пиксель может принимать любое значение от 0 до 255. Текст же дискретен: слово «кот» — это токен 4821, а не какое-то число на плавной шкале. Существующие диффузионные языковые модели (DLM) решали эту проблему по-разному. Одни работали напрямую с дискретными токенами, изобретая специальные вероятностные распределения для категориальных данных. Другие переходили в непрерывное пространство эмбеддингов, но постоянно прыгали туда-обратно между дискретным и непрерывным представлениями на каждом шаге генерации. Оба подхода давали результаты хуже autoregressive моделей вроде GPT.

ELF ломает этот компромисс. Вместо того чтобы мучительно переключаться между мирами на каждом шаге, модель практически весь процесс диффузии проводит в непрерывном пространстве эмбеддингов — и лишь на финальном шаге проецирует результат обратно в дискретные токены через общую сеть с разделяемыми весами. Это ключевое архитектурное отличие, которое делает ELF похожей на image diffusion модели и позволяет заимствовать у них проверенные техники.

Как работает ELF: эмбеддинги вместо токенов

Архитектура ELF строится на трёх идеях, каждая из которых решает конкретную проблему предыдущих поколений DLM. Первая — переход в непрерывное пространство на старте. Входные токены сразу отображаются в векторы эмбеддингов, и весь процесс диффузии происходит в этом непрерывном пространстве. Вторая — использование Flow Matching вместо классической диффузии. Flow Matching — это современный математический фреймворк, который учит модель прямому преобразованию между распределениями, а не пошаговому удалению шума. Это даёт более стабильное обучение и лучшую сходимость.

Третья идея — общая сеть с разделяемыми весами для перехода от эмбеддингов к токенам. На финальном шаге модель должна превратить непрерывный вектор обратно в конкретное слово из словаря. ELF делает это через ту же самую сеть, которая использовалась для начального эмбеддинга — веса разделяются между кодировщиком и декодировщиком. Это экономит параметры и стабилизирует обучение, потому что модель не может позволить себе слишком сильно исказить эмбеддинги: ей всё равно придётся декодировать их теми же весами.

Важное преимущество такой архитектуры — совместимость с техниками из мира image diffusion. Классификаторно-свободное управление (Classifier-Free Guidance, CFG) — метод, который позволяет управлять стилем и содержанием генерации, просто масштабируя разницу между условным и безусловным предсказаниями — в ELF работает из коробки, без дополнительных адаптаций. Для дискретных DLM CFG требовал сложных модификаций, а в ELF он применяется точно так же, как в Stable Diffusion.

Ещё один важный компонент — self-conditioning. На каждом шаге диффузии модель видит не только зашумлённый эмбеддинг, но и своё собственное предсказание с предыдущего шага. Это даёт дополнительный сигнал для стабилизации траектории генерации и помогает модели лучше планировать глобальную структуру текста, а не только локальные исправления. Self-conditioning известен в image diffusion, но ELF адаптирует его для языкового пространства, где структура данных принципиально иная.

Результаты: меньше данных, лучше качество

Главное достижение ELF — не просто новая архитектура, а конкретные цифры. На датасете OpenWebText модель ELF размером 105 миллионов параметров достигает более низкой перплексии при генерации, чем конкурирующие диффузионные модели объёмом 170 миллионов параметров. При этом ELF использует в 10 раз меньше обучающих токенов. Это означает, что модель учится быстрее и эффективнее — она извлекает больше пользы из каждого просмотренного примера.

Сравнение проводилось с несколькими сильными бейзлайнами: дискретными диффузионными моделями вроде MDLM и SSD-LM, а также с непрерывными подходами вроде CDCD и D3PM. Во всех случаях ELF показала лучшую или сопоставимую перплексию при меньшем числе шагов сэмплирования. Особенно впечатляет сравнение с дистиллированными моделями: ELF достигает лучших результатов без какой-либо дистилляции, то есть без дополнительного этапа обучения, который обычно требуется для ускорения диффузионных моделей.

Перплексия — метрика, которая измеряет, насколько хорошо модель предсказывает следующий токен. Чем ниже перплексия, тем более «естественным» и связным получается сгенерированный текст. ELF показывает лучшую перплексию при меньшем числе шагов сэмплирования, то есть генерирует текст быстрее. Это важно для практического применения: диффузионные модели традиционно проигрывали autoregressive в скорости, потому что требовали множества итераций для генерации одного ответа. ELF сокращает этот разрыв.

Результаты подтверждаются не только на безусловной генерации, но и на конкретных downstream-задачах. На WMT14 German-to-English перевод ELF-B показывает сильные результаты, сопоставимые с бейзлайнами схожего масштаба. На задаче суммаризации XSum модель также демонстрирует конкурентоспособное качество. Это говорит о том, что архитектура обобщается — она работает не только для «свободного» генеративного моделирования, но и для кондиционированной генерации, когда нужно следовать инструкции или переводить текст.

Исследователи также провели обширные абляционные исследования, чтобы понять, какой компонент даёт какой эффект. Они сравнили разные стратегии эмбеддингов — предобученные, гауссовские, обучаемые — и выяснили, что предобученные эмбеддинги дают наилучший старт, но обучаемые эмбеддинги догоняют их по качеству при достаточном времени обучения. Они протестировали разные сэмплеры и расписания шума, показав, что выбор сэмплера влияет на качество не меньше, чем архитектура модели. Эти детали важны для практиков: они показывают, что ELF — не просто удачная комбинация гиперпараметров, а устойчивая архитектура, которая работает при разных настройках.

Почему это важно: парадигма против парадигмы

Autoregressive модели имеют фундаментальное ограничение: они генерируют текст последовательно, и каждый новый токен зависит от всех предыдущих. Это делает их естественными для языка, но создаёт проблемы. Они не могут «передумать» — если модель начала предложение неудачно, она вынуждена продолжать в том же духе. Они плохо масштабируются по длине — чем длиннее текст, тем выше риск накопления ошибок. И они требуют огромных объёмов данных для обучения, потому что учатся предсказывать всего один токен за раз.

Диффузионные модели теоретически лишены этих ограничений. Они генерируют весь текст параллельно, через множество итераций уточнения. Модель может «передумать» на любом шаге: сначала набросать общую структуру ответа, потом уточнить детали, затем поправить грамматику. Так работает человеческое письмо — мы сначала пишем черновик, потом редактируем. Но до ELF диффузионные языковые модели не могли реализовать этот потенциал на практике — они уступали autoregressive в качестве и требовали больше ресурсов.

ELF меняет баланс сил. В 10 раз меньше обучающих токенов — это не просто экономия, это признак того, что модель учится более эффективно. Если диффузионный подход действительно лучше улавливает структуру языка, чем пошаговое предсказание, то при масштабировании до размеров GPT-4 или Gemini преимущество может стать ещё более заметным. Пока это 105-миллионная модель на академическом датасете, но архитектурный принцип масштабируется.

Что это значит для практики

Для разработчиков и исследователей ELF открывает несколько интересных направлений. Во-первых, возможность использовать CFG и другие техники image diffusion для контроля генерации текста. Представьте, что вы можете регулировать «креативность» ответа простым параметром, как сейчас делается с temperature в GPT — но с более предсказуемым и интерпретируемым эффектом. Или управлять стилем текста, не переобучая модель, а просто меняя guidance scale.

Во-вторых, потенциальное снижение затрат на обучение. Если диффузионные модели действительно требуют на порядок меньше данных для достижения сопоставимого качества, это меняет экономику pretraining. Меньше токенов означает меньше вычислительных затрат, меньше энергопотребления и более быструю итерацию при экспериментах с архитектурой.

В-третьих, новые возможности для редактирования и реврайта. Autoregressive модель не может легко «отредактировать» уже сгенерированный текст — ей приходится перегенерировать всё сначала. Диффузионная модель может зашумить часть текста и восстановить её с нужными изменениями, сохранив остальное нетронутым. Это открывает путь к инструментам вроде «исправь грамматику в этом абзаце, не меняя смысл» — нативно, без костылей.

Ограничения и открытые вопросы

Несмотря на впечатляющие результаты, ELF пока не готова заменить GPT. Модель протестирована на относительно небольшом масштабе — 105 миллионов параметров против сотен миллиардов у современных LLM. Неизвестно, как архитектура поведёт себя при масштабировании на порядки. Диффузионные модели традиционно требуют больше шагов генерации, чем autoregressive — один проход forward pass против множества итераций. ELF сокращает число шагов, но всё равно ли она конкурентоспособна по latency при генерации длинных текстов?

Ещё один вопрос — работа с длинным контекстом. Autoregressive модели благодаря механизмам вроде RoPE или ALiBi могут обрабатывать контексты в сотни тысяч токенов. Как ELF справится с длинными входами? Непрерывное пространство эмбеддингов теоретически позволяет более гибкие операции, но на практике это требует новых механизмов внимания.

И наконец, вопрос обучения. Flow Matching требует аккуратной настройки расписания шума и траекторий. В мире изображений эти техники отлажены годами, но для языка они ещё новы. Нужно ли специальное расписание для разных типов текста? Как балансировать между условной и безусловной генерацией? Эти вопросы ждут дальнейших исследований.

Часто задаваемые вопросы

В чём главное отличие ELF от GPT?

GPT генерирует текст последовательно, токен за токеном. ELF генерирует весь текст параллельно, через множество итераций уточнения в непрерывном пространстве эмбеддингов. Это позволяет модели «передумывать» и редактировать свой ответ на каждом шаге, а не только двигаться вперёд.

Почему диффузионные модели раньше не работали для текста?

Текст дискретен — слова нельзя плавно интерполировать, как пиксели. Предыдущие диффузионные языковые модели либо мучительно адаптировали диффузию под дискретные токены, либо постоянно переключались между дискретным и непрерывным пространствами. ELF решает проблему, проводя почти весь процесс в непрерывном пространстве эмбеддингов.

Может ли ELF заменить существующие LLM?

Пока нет — модель протестирована на масштабе 105 миллионов параметров, что на несколько порядков меньше GPT-4 или Gemini. Но архитектурный принцип многообещающий: в 10 раз меньше обучающих данных при лучшем качестве — это сигнал о том, что диффузионный подход может быть более эффективным.

Итог

ELF — это не просто очередная диффузионная модель для текста. Это попытка перенести лучшие практики из мира image generation в языковое моделирование, и она работает. Непрерывное пространство эмбеддингов, Flow Matching, совместимость с CFG — всё это даёт конкретные преимущества: лучшее качество при меньших затратах на обучение, более предсказуемое поведение, доступ к богатому арсеналу техник diffusion models.

Autoregressive подход доминировал семь лет не потому, что он идеален, а потому, что альтернативы не могли с ним конкурировать. ELF показывает, что альтернатива возможна. Если дальнейшие исследования подтвердят масштабируемость этой архитектуры, мы можем увидеть смену парадигмы — от последовательной генерации к параллельной, от «пиши и не оглядывайся» к «черновик и правка». Для тех, кто следит за развитием генеративного ИИ, ELF — одна из самых интригующих архитектур 2026 года.

← Все записи
← Все записи