Голосовые агенты провалили тест: почему ни одна система не выдержала реальность
Ни одна из двенадцати протестированных систем — включая решения OpenAI, Google и Amazon — не смогла одновременно преодолеть порог 0.5 по точности и пользовательскому опыту. Это не гипотеза, а результат EVA-Bench: первого сквозного бенчмарка для голосовых агентов, опубликованного ServiceNow в мае 2026 года. Если вы считаете, что голосовые ИИ-ассистенты уже готовы к массовому внедрению, эти цифры заставят вас передумать.
Что такое EVA-Bench
EVA-Bench — это сквозная система оценки голосовых агентов, которая решает две фундаментальные проблемы: как симулировать реалистичные разговоры и как измерять качество так, чтобы учитывать специфические ошибки голосового интерфейса. В отличие от текстовых бенчмарков, где агент обрабатывает статичные запросы, EVA-Bench запускает полноценные аудиодиалоги между ботами с множеством поворотов, проверками аутентификации и внезапными осложнениями.
Бенчмарк включает 213 сценариев в трёх корпоративных доменах: управление обслуживанием авиапассажиров (50 сценариев, 15 инструментов), кадровые операции в здравоохранении (83 сценария, 47 инструментов) и корпоративный ИТ-сервис (80 сценариев, 59 инструментов). Каждый сценарий требует точного распознавания именованных сущностей — кодов подтверждения, номеров рейсов, лицензий врачей, OTP-кодов — где одна ошибка транскрипции каскадирует в провал всего диалога.
Внутри каждого домена сценарии делятся на три типа сложности. Single-Intent — один рабочий процесс за звонок, базовая проверка компетенции. Multi-Intent — от одного до четырёх одновременных процессов, тестирующих способность агента удерживать контекст при переключении между задачами. Adversarial — жёсткие политические ограничения под социальным давлением, например отказ в компенсации недостающему пассажиру или блокировка несанкционированного доступа к медицинским данным. Healthcare HRSD оказался самым сложным доменом со средним показателем 8.7 ожидаемых вызовов инструментов на сценарий.
Три архитектуры голосовых агентов
Современные голосовые агенты строятся по одной из трёх схем. Каскадные системы последовательно соединяют три компонента: распознавание речи (STT), языковую модель (LLM) и синтез речи (TTS). Это проверенный подход, но он вносит задержку на каждом этапе и множит ошибки — ошибка STT передаётся LLM, а искажения TTS портят восприятие. Аудионативные системы работают иначе: speech-to-speech (S2S) модели обрабатывают аудио напрямую, минуя текстовое представление, что теоретически снижает задержки и сохраняет просодические сигналы.
Гибридные системы занимают промежуточное положение, комбинируя элементы обоих подходов. EVA-Bench сравнивал 12 систем по всем трём архитектурам, включая каскадные сборки на базе Whisper + Qwen3.5-27B + Voxtral, Nova + GPT-5.4 + Sonic, Scribe + Gemini-3-Flash + Conversational v3, Cohere + Gemma-4-26B + Voxtral, а также нативные S2S-решения Gemini-3.1-Flash-Live и GPT-Realtime-1.5. Результат оказался одинаково неутешительным для всех архитектурных классов.
Главные открытия: точность против опыта
Исследователи измеряли два композитных показателя. EVA-A (Accuracy) отражает завершение задачи, верность политике и точность аудиосущностей — то есть, выполнил ли агент то, что от него требовалось, без фактических ошибок. EVA-X (Experience) оценивает прогрессию разговора, краткость речи и точность переключения ролей — насколько естественно и плавно проходил диалог.
Ни одна из двенадцати систем не превысила 0.5 по обоим показателям одновременно. Это означает, что даже лучшие решения на рынке справляются менее чем наполовину с комплексными реальными сценариями. Каскадные системы показали лучшую точность, но страдали от высокой задержки: три лучших каскадных агента на инструментальных вызовах показывали задержку свыше 5 секунд, в то время как S2S-модели укладывались в доли секунды. При этом S2S-системы лидировали по пользовательскому опыту, но уступали в точности выполнения задач.
Внутри каскадного класса наблюдался стабильный компромисс между точностью и скоростью. Три каскадные системы с наивысшей точностью — Nova + GPT-5.4 + Sonic, Scribe + Gemini-3-Flash + Conversational v3, и ещё одна сборка на Gemini — демонстрировали задержки инструментальных вызовов выше 5 секунд. Две каскадные системы с лучшим опытом — Whisper + Qwen3.5-27B + Voxtral и Cohere + Gemma-4-26B + Voxtral — укладывались в 2.7 секунды, но теряли в точности. Ни одна каскадная система не превысила 0.25 по обоим измерениям одновременно, и доверительные интервалы не пересекались.
Пиковая производительность ≠ надёжность
Одно из самых неприятных открытий касается воспроизводимости результатов. EVA-Bench измерял не только однократный успех (pass@1), но и надёжность через множественные прогоны (pass@k и pass^k). Медианный разрыв между пиковой и надёжной производительностью составил 0.44 по EVA-A и 0.24 по EVA-X. Проще говоря, результат, который вы видите в демо, с высокой вероятностью не повторится в продакшене — система может блеснуть в одном звонке и провалиться в следующем при идентичных условиях.
pass^k измеряет вероятность того, что система пройдёт все пять пробных запусков для данного сценария. Даже сильнейшие системы при такой интерпретации падают далеко ниже пика, что указывает на систематическое завышение возможностей при однократной оценке. Для бизнеса это означает, что оценки на основе демо или одноразовых тестов дают искажённую картину. Компания, закупающая голосового ассистента по маркетинговому ролику, рискует получить продукт, который в половине звонков даёт неверный код подтверждения или неправильно интерпретирует политику возмещения.
Акценты и шум разрушают всех
Бенчмарк включал контролируемый набор акустических возмущений: акценты, фоновый шум и их комбинацию. Результаты показали, что архитектуры ведут себя по-разному при деградации, но ни одна не остаётся неуязвимой. Акцентированная речь вызвала наибольший провал у каскадных систем: точность завершения задачи упала в среднем на 10 процентных пунктов, а худшая система потеряла 17 пунктов. При этом ни одна S2S-модель не показала значимой деградации по точности — зато фоновый шум разрушил их пользовательский опыт, снизив EVA-X в среднем на 0.16.
В комбинированном режиме — акцент плюс шум — каскадные системы теряли в среднем 19 пунктов точности, а худшие из них до 31 пунктов. S2S-модели держались в пределах 5 пунктов, что выглядит как преимущество, пока не вспомнишь, что их базовая точность и без того была ниже. Переключение ролей оказалось самой уязвимой метрикой: 81% измерений при возмущениях показали значимую деградацию, независимо от архитектуры.
Интересно, что внутри каскадного класса робастность варьировалась радикально: от 11% до 87% комбинаций метрика-возмущение показали значимую деградацию. Две наиболее робастные каскадные системы деградировали преимущественно по метрикам опыта, ведя себя скорее как S2S-модели, чем как их каскадные собратья. Это намекает на то, что выбор конкретных компонентов STT, LLM и TTS влияет на характер уязвимости не меньше, чем сама архитектура.
Почему это важно прямо сейчас
Голосовые агенты развёртываются в колл-центрах, клиниках, авиакомпаниях и службах ИТ-поддержки — сферах, где ошибка стоит денег, репутации или здоровья. EVA-Bench демонстрирует, что текущее поколение систем не готово к этим нагрузкам. Компромисс между точностью и скоростью, непредсказуемость поведения при повторных звонках и катастрофическая деградация при акцентах — это не теоретические проблемы, а ежедневная реальность любого контакт-центра с разнообразной аудиторией.
Исследователи открыли код, данные и фреймворк под открытой лицензией. Это означает, что производители голосовых агентов больше не смогут скрываться за маркетинговыми обещаниями — у сообщества появился инструмент для объективного сравнения. Для бизнеса EVA-Bench — это чек-лист перед закупкой: если вендор отказывается тестироваться на этом бенчмарке, стоит задаться вопросом, почему.
Для инженеров результаты указывают на три приоритетных направления. Первое — снижение задержек в каскадных системах через спекулятивное выполнение инструментов, предварительную выборку ответов и потоковое планирование. Второе — повышение точности S2S-моделей при сохранении их скоростного преимущества. Третье — разработка архитектур, способных адаптивно переключаться между режимами точности и скорости в зависимости от сложности сценария.
Что происходит под капотом симуляции
EVA-Bench не использует записанные диалоги или заранее заготовленные скрипты. Вместо этого фреймворк запускает двух ботов — пользовательский симулятор и тестируемого агента — в аудиоканале, где они обмениваются речевыми фрагментами в реальном времени. Пользовательский симулятор получает сценарий с целью звонка, контекстом и ожидаемым поведением, после чего генерирует речевые запросы, прерывания, уточнения и эмоциональные реакции так, как это сделал бы человек.
Критически важно, что симулятор сам проходит валидацию. Если бот-пользователь отклоняется от сценария, ведёт себя нереалистично или совершает действия, которые не совершил бы настоящий звонящий, разговор помечается как невалидный и исключается из оценки. Это предотвращает ситуацию, когда агент получает высокий балл за обработку абсурдного поведения искусственного собеседника. Валидация проверяет три аспекта: достижение конца разговора, поведенческую достоверность пользователя и речевую достоверность — совпадает ли синтезированная речь с тем, что ожидалось от человека с данным акцентом и интонацией.
Каждый сценарий прогоняется в пяти независимых попытках, что позволяет отделить случайный успех от стабильной компетенции. Акустические возмущения применяются через контролируемый конвейер: к чистым записям добавляются акценты, фоновый шум офиса или улицы, а затем комбинация обоих. Это позволяет измерить не только базовую производительность, но и то, как система деградирует при отходе от идеальных условий записи студийного качества.
Что происходит под капотом симуляции
EVA-Bench не использует записанные диалоги или заранее заготовленные скрипты. Вместо этого фреймворк запускает двух ботов — пользовательский симулятор и тестируемого агента — в аудиоканале, где они обмениваются речевыми фрагментами в реальном времени. Пользовательский симулятор получает сценарий с целью звонка, контекстом и ожидаемым поведением, после чего генерирует речевые запросы, прерывания, уточнения и эмоциональные реакции так, как это сделал бы человек.
Критически важно, что симулятор сам проходит валидацию. Если бот-пользователь отклоняется от сценария, ведёт себя нереалистично или совершает действия, которые не совершил бы настоящий звонящий, разговор помечается как невалидный и исключается из оценки. Это предотвращает ситуацию, когда агент получает высокий балл за обработку абсурдного поведения искусственного собеседника. Валидация проверяет три аспекта: достижение конца разговора, поведенческую достоверность пользователя и речевую достоверность — совпадает ли синтезированная речь с тем, что ожидалось от человека с данным акцентом и интонацией.
Каждый сценарий прогоняется в пяти независимых попытках, что позволяет отделить случайный успех от стабильной компетенции. Акустические возмущения применяются через контролируемый конвейер: к чистым записям добавляются акценты, фоновый шум офиса или улицы, а затем комбинация обоих. Это позволяет измерить не только базовую производительность, но и то, как система деградирует при отходе от идеальных условий записи студийного качества.
Часто задаваемые вопросы
Чем EVA-Bench отличается от текстовых бенчмарков?
Текстовые бенчмарки оценивают изолированные запросы, тогда как EVA-Bench моделирует полные аудиодиалоги с множеством поворотов, аутентификацией и акустическими возмущениями. Он измеряет не только точность, но и пользовательский опыт — задержки, краткость, естественность переключения ролей.
Почему S2S-модели не доминируют?
Несмотря на низкую задержку, аудионативные модели уступают каскадным по точности выполнения задач. Это говорит о том, что прямое аудиопроцессирование пока не освоило сложные многоходовые рассуждения, которые текстовые LLM решают увереннее. Архитектура S2S выигрывает в скорости, но проигрывает в глубине.
Что означает разрыв в 0.44 между пиком и надёжностью?
Это означает, что лучший результат системы в одном прогоне почти вдвое превышает её стабильную производительность. Для бизнеса это риск: демо может показать идеальный звонок, а реальная эксплуатация принесёт ошибки в каждом втором диалоге. Надёжность важнее пика.
Итог
EVA-Bench впервые дал количественный ответ на вопрос, который волновал индустрию голосовых агентов: насколько они действительно готовы. Ответ — не готовы. Ни одна система не проходит порог приемлемости для критически важных сценариев, все архитектуры имеют фундаментальные компромиссы, а реальные акустические условия разрушают производительность независимо от подхода. Для разработчиков это дорожная карта: улучшать надёжность, снижать задержки каскадных систем и повышать точность S2S. Для бизнеса — это повод требовать не демо, а статистику из множественных прогонов перед покупкой.