ScenA: как модель научилась генерировать живые диалоги по текстовому описанию
Представьте: вы даёте модели два коротких референсных аудио с голосами и текст — «двое друзей обсуждают что-то смешное в шумном кафе, один из них смеётся, звенит посуда». Система генерирует полноценную сцену: два голоса перебивают друг друга, смех накладывается на реплики, где-то на фоне звенят чашки. Без пост-обработки, без склейки сегментов, без чистых студийных записей. Это — ScenA, система от исследователей из Lightricks и Тель-Авивского университета.
Reference-Driven Multi-Speaker Audio Scene Generation from In-the-Wild Priors — полное название статьи, опубликованной 17 июня 2026 года на arXiv (2606.19325). ScenA использует flow-matching фундамент-модель для генерации аудио и привязывает голоса к репликам исключительно через текстовый промпт. Никаких тегов вида [S1]/[S2], никаких транскрипций, никаких отдельных энкодеров спикеров.
Проблема существующих систем
Современные системы синтеза речи делятся на два больших класса. Zero-shot TTS модели — VALL-E, VALL-E 2, Seed-TTS, Spark-TTS, CosyVoice 2/3, VoiceStar, XTTS, MiniMax-Speech — умеют клонировать один голос из короткого референса, но не работают с несколькими спикерами: диалоги приходится собирать сегмент за сегментом вручную. Dialog-TTS системы — CoVoMix, CoVoMix2, MOSS-TTSD, ZipVoice-Dialog, VibeVoice, FireRedTTS-2, SoulX-Podcast, DialoSpeech — генерируют диалоги напрямую, но привязывают спикеров через структурированные сигналы: теги [S1]/[S2], многопоточные транскрипции или обучаемые эмбеддинги «спикер-в-таймслоте».
Все эти подходы объединяет фундаментальное ограничение: они работают в speech-only конвейерах. На выходе — чистые вокальные дорожки без фона, без акустики помещения, без перекрывающейся речи и спонтанных паузальных событий. Настоящий разговор в реальной обстановке остаётся за пределами их возможностей.
Отдельно стоит проблема акустического окружения. Когда вы слышите разговор по телефону, вы неосознанно восстанавливаете контекст: это звонок из офиса или улицы? Дома или в машине? Эта информация закодирована в фоновом шуме, и её отсутствие делает синтезированную речь «стерильной». Существующие системы именно это и делают — убирают всё, что делает звук живым.
Архитектура ScenA
ScenA строится на LTX-2 — flow-matching фундамент-модели, претрейненной на крупномасштабных «in-the-wild» аудиоданных. Это означает, что модель уже «знает», как звучит реальная обстановка: шум транспорта, акустика комнат, эхо в коридоре, дождь за окном. Проблема в том, чтобы привязать к этому фону конкретные голоса и конкретный сценарий, не ломая то, что уже работает.
Минимальный интерфейс ScenA — ключевая идея статьи. Референсные латентные представления голосов конкатенируются с входной последовательностью модели и различаются с помощью лёгких identity-aware positional encodings. Один свободный текстовый промпт на естественном языке описывает всю сцену: кто говорит, что говорит, что происходит вокруг.
Например, промпт «reference 1 says they forgot to bring the document, reference 2 laughs and says it is fine, a chair scrapes in the background, traffic noise outside the window» — полностью определяет, какой голос где звучит, без какой-либо дополнительной разметки, тегов или транскрипций.
positional encoding решает задачу идентификации: R1/R2 отмечают, какой токен принадлежит какому референсу. Это не обучаемые эмбеддинги спикеров, как в CoVoMix2, а лёгкий механизм на основе RoPE (Rotary Position Embedding) — того же подхода, что используется в языковых моделях для позиционного кодирования. ScenA расширяет RoPE: добавляется дополнительное измерение, которое кодирует принадлежность токена к конкретному референсу (reference 1, reference 2, или целевая аудио). Абляционное исследование показало, что аддитивные slot embeddings работают лучше, чем RoPE-вариант и baseline без positional encoding (ACC падает до 0.513 — почти случайное угадывание для двух спикеров).
Reference Shortcut: предсказуемый сбой при выводе
Обучение этой архитектуры стандартным способом не работает — и это главный технический вклад статьи. Исследователи обнаружили ранее не описанный режим отказа: Reference Shortcut.
При использовании стандартной logit-normal timestep distribution, той же, что применяется в Stable Diffusion 3, зашумлённая целевая аудиодорожка сохраняет достаточно акустической информации, чтобы модель могла сопоставить референс с целью по звуковому сходству. Текстовый промпт при этом игнорируется.
На тренировке такой подход даёт низкий лосс — модель действительно научается связывать референсы с репликами, выглядит корректной. Но при инференсе генерация начинается с чистого шума, где этот shortcut недоступен, и единственный оставшийся сигнал для привязки — текст. Модель уже научилась его игнорировать. Результат — катастрофическая деградация на инференсе при внешне благополучной тренировке.
Исследователи количественно подтвердили наличие shortcut через обучение отдельного проклассификатора на замороженных аудио-фичах. Проклассификатор получал зашумлённую цель и два референса — один из того же семпла, другой из другого — и предсказывал, какой референс соответствует цели. Результат: проклассификатор корректно сопоставляет референсы с целью по акустическому сходству на всём диапазоне низкого и умеренного шума, именно там, где стандартное обучение концентрирует свои усилия. Модель «подсматривает» ответ и не напрягает текстовую ветку.
High-Noise-Biased Timestep Distribution
Решение элегантно и не требует новых компонентов. Standard logit-normal смещает выбор t в область низкого и среднего шума. ScenA использует Beta+Uniform mixture — распределение, которое концентрирует обучение на уровнях шума, где цель неинформативна и текст является единственным сигналом для связывания спикера с репликой.
Если в стандартном расписании модель может «подсмотреть» ответ через акустику на 70% тренировочных шагов, то с высокошумным распределением ей приходится полагаться на промпт почти всегда. Эксперименты с абляцией timestep distribution подтверждают: метрики, связанные с привязкой (cpWER, cpSIM, ACC), монотонно улучшаются по мере смещения обучающей массы в область высокого шума.
Дополнительно ScenA использует two auxiliary augmentations. Adversarial reference injection добавляет случайные «дистракторные» референсы, не участвующие в сцене: без этого приёма cpSIM падает на ~0.10, SIM-O на ~0.08. Slot-shuffle curriculum чередует позиции референсов, но не с нуля — первые 10k шагов без перемешивания, чтобы модель стабильно закрепила соответствие «reference 1 = позиция R1», и только потом начинается curriculum. Всегда- shuffle с нуля коллапсирует (ACC 0.50, случайное угадывание), потому что модель никогда не получает возможности установить стабильное соответствие.
Экспериментальные результаты
ScenA оценивается на публичном бенчмарке CoVoMix2-Dialogue — стандартном бенчмарке для zero-shot многостороннего синтеза речи. CoVoMix2-Dialogue включает 20-секундные диалоги между двумя спикерами с известными текстовыми транскрипциями и оригинальными аудио.
Метрики: cpWER (content-aware персоналная WER) измеряет, насколько корректно текст сгенерирован привязанным спикером — учитывает и качество речи, и правильность привязки. cpSIM — similarity персона спикера к оригинальному референсу. ACC — accuracy привязки референса к сгенерированной реплике. SQUIM (TorchAudio) — референс-фри мера качества и разборчивости речи, не требующая оригинального референса для сравнения. WER — стандартная word error rate, естественность транскрибируемого текста.
Результаты: ScenA превосходит или сопоставима с CoVoMix2 и Dia на всех метриках привязки. Преимущество растёт на in-the-wild подмножестве бенчмарка (реальные зашумлённые референсы вместо студийных) — именно там, где акустическое сходство перестаёт быть надёжным сигналом и конкуренты деградируют.
Дополнительные возможности ScenA, не измеряемые стандартными метриками: генерация перекрывающейся речи (overlapping speech), спонтанных паралингвистических событий (смех, вздохи, покашливания), scene-level фонового звука (стук стульев, уличный шум, звон посуды) — всё совместно, в одном проходе генерации.
Почему это важно для индустрии
Текущие промышленные пайплайны для генерации диалогов аудио работают как сборка конструктора. Сначала получают референсы голосов. Потом размечают диалог: где кто говорит, когда, с какими эмоциями. Потом генерируют каждый сегмент отдельно. Потом склеивают. Это исключает перекрытие реплик, делает невозможной совместную акустику и требует ручной разметки структуры диалога.
ScenA убирает эти ограничения. Текстовый промпт как единственный интерфейс управления означает, что любой LLM-прокси может описывать сцены на естественном языке, а модель обеспечивает генерацию с нужными голосами, нужной акустикой и нужными паузальными событиями.
Практические применения: генерация подкастов и аудиодрамы без актёров, прототипирование диалогов для игр и ассистентов на ранней стадии, автоматическая озвучка сцен из текстовых описаний для accessibility-инструментов, создание реалистичных тренировочных данных для систем ASR и speaker diarization.
Дополнительный аргумент в пользу flow-matching подхода: в отличие от autoregressive моделей (VALL-E, Seed-TTS), ScenA генерирует весь диалог за один проход. Это критично для приложений реального времени и снижает накопление ошибок — каждая новая autoregressive модель наследует ошибки предыдущей, flow-matching лишена этого недостатка.
FAQ
Чем ScenA отличается от VALL-E или CosyVoice 2? VALL-E и CosyVoice работают с одним спикером из одного референса, autoregressively генерируя дискретные токены речи. ScenA управляет несколькими спикерами через единственный текстовый промпт, генерирует перекрывающуюся речь и фоновую акустику совместно, за один non-autoregressive проход. Это принципиально другой масштаб контроля и генерации.
Почему standard noise schedule не работает для многореференсной генерации? Standard logit-normal концентрирует тренировку на уровнях шума, где зашумлённая цель сохраняет достаточно акустики для «подсматривания» ответа через сходство с референсом. Модель находит shortcut и перестаёт полагаться на текст. High-noise-biased распределение закрывает эту лазейку, заставляя модель тренироваться в условиях, максимально близких к инференсу (чистый шум на старте).
Что такое identity-aware positional encodings? positional encoding в трансформерах обычно кодирует позицию тока во времени. ScenA расширяет это: добавляется дополнительное измерение, которое кодирует принадлежность токена к конкретному референсу (reference 1, reference 2, или целевая аудио). Это позволяет модели отличать токены разных референсов без отдельных энкодеров или обучаемых эмбеддингов. Абляция показала: без любого slot encoding (no-positional baseline) ACC падает до 0.513 — почти случайное угадывание для двух спикеров.
Можно ли использовать ScenA для генерации речи на произвольном языке? Модель основана на LTX-2 — мультиязычной audio foundation model от Lightricks. Ограничения определяются покрытием фундамент-модели, а не архитектурой ScenA. Референсные голоса могут быть на любом языке, поддерживаемом LTX-2, и промпт может описывать сцену на любом языке.
Итог
ScenA демонстрирует важный принцип: иногда проблема не в архитектуре, а в тренировочном режиме. Reference Shortcut — тонкая проблема, которую легко не заметить: модель выглядит корректной на тренировке, но не работает на инференсе. Её решение через перекалибровку timestep distribution, а не через добавление новых компонентов, показывает, что одна и та же фундамент-модель может научиться правильному поведению при минимальном изменении процесса обучения.
Результат — система, которая генерирует живые многосторонние диалоги с акустикой реального мира из текстового описания и нескольких референсных голосов. Это снимает ограничение на структуру сцены, которое десятилетиями определяло дизайн синтеза речи.
Проект и аудио примеры: scena.lightricks.com