Gemini 3.1 Flash Live: как голосовой ИИ стал естественнее

В марте 2026 года Google выпустила Gemini 3.1 Flash Live — модель, которая работает в реальном времени и звучит значительно естественнее предшественников. Ключевые цифры: 90.8% на бенчмарке сложных голосовых вызовов и 36.1% на тесте многошаговых инструкций с шумом. Это не просто улучшение «было 80%, стало 85%» — это качественный скачок в том, как ИИ понимает живой разговор.

Что такое Gemini 3.1 Flash Live

Flash Live — голосовая модель, встроенная в экосистему Google. Она доступна через Gemini Live API для разработчиков, в Gemini Enterprise для бизнеса, и напрямую в Search Live и Gemini Live для обычных пользователей. В отличие от синтетических тестовых аудио, модель работает с реальным голосовым вводом: шумом, паузами, перебивами, сменой тона — всем тем, что делает живой разговор живым.

Основное улучшение — способность вести длинный связный диалог без потери нити рассуждений. Gemini 3.1 Flash Live держит контекст беседы в два раза дольше предыдущей версии. Это важно для практических сценариев: голосовой ассистент, который помогает разобраться в сложной теме за 15 минут, а не сбрасывается после трёх вопросов.

Бенчмарки: на чём проверяли

Google выбрала два бенчмарка, которые отражают реальное применение, а не синтетические аудиозаписи.

ComplexFuncBench Audio — многошаговое выполнение функций с ограничениями в голосовом формате. Модель получает команду вроде «забронируй столик на завтра, но не раньше семи вечера, и если ресторан закрыт — напиши мне», и должна корректно обработать цепочку условий. Gemini 3.1 Flash Live набрала 90.8% — лидирующий результат среди голосовых моделей Google.

Scale AI's Audio MultiChallenge — тест на следование сложным инструкциям в присутствии типичных для реальных звонков помех: фоновый шум, хмыканье, перебивы собеседника, нечёткие формулировки. С включённым режимом «thinking» результат составил 36.1%. Это не кажется высоким числом, но для сравнения: предыдущие модели в аналогичных условиях не превышали 20%. Конкретные 36% означают, что модель корректно выполняет каждую третью сложную команду в реалистичных условиях — это применимо на практике.

Понимание тона и эмоций

Третье направление улучшений — tonal understanding. Модель научилась распознавать не только слова, но и то, как они произносятся. Пауза не по сценарию, повышение голоса, замедление — всё это влияет на интерпретацию. В тестах Gemini Enterprise for Customer Experience новая модель лучше предыдущей версии (2.5 Flash Native Audio) распознаёт оттенки: высоту голоса, темп речи, спонтанные сомнения в интонации.

Практический эффект: голосовой ассистент на базе 3.1 Flash Live точнее определяет, когда клиент разочарован или запутался, и адаптирует ответ. Это не маркетинговая фраза — в корпоративных пилотных проектах с Verizon, LiveKit и The Home Depot отметили именно это улучшение: диалог с системой стал ощущаться менее «скриптовым».

Мультиязычность и глобальный запуск

Модель изначально мультиязычна — это не отдельная функция, а встроенное свойство. На этом фоне Google одновременно расширила Search Live на более чем 200 стран и территорий. Пользователи в каждой из них могут вести голосовой поиск на своём языке, и модель понимает контекст, а не просто переводит запрос.

SynthID: водяной знак для аудио

Все аудио, сгенерированные 3.1 Flash Live, содержат водяной знак SynthID — незаметный для человеческого уха сигнал, встроенный непосредственно в звуковую волну. Watermarking не обрезается при перекодировании и не исчезает при микшировании с фоновой музыкой. Это инструмент для борьбы с дипфейками и дезинформацией: если аудио с ИИ-голосом распространяется как реальная запись, SynthID позволяет установить происхождение.

Для разработчиков

Прямо сейчас модель доступна в Gemini Live API через Google AI Studio — бесплатно для разработчиков в режиме превью. Enterprise-версия (Gemini Enterprise for Customer Experience) включает те же возможности плюс SLA и инструменты для интеграции в существующие колл-центры и голосовые системы.

Ключевые технические характеристики: sub-second latency на типичных устройствах, поддержка потоковой передачи аудио в оба направления (full-duplex), встроенная генерация текста и кода внутри диалога. Модель можно использовать как для простых сценариев (голосовой поиск, управление умным домом), так и для сложных (голосовой ассистент для технической поддержки, который работает с базой знаний и выполняет многошаговые задачи).

Практический сценарий использования: голосовой интерфейс к 1С или SAP, где пользователь описывает задачу своими словами — «мне нужно посмотреть остатки по складу за last week и если меньше 100 единиц — создать заказ на поставку» — и система выполняет это без навигации по меню. Или голосовой агент для найма, который проводит первичный скрининг кандидатов, задаёт вопросы из скрипта и записывает ответы в ATS.

Архитектура: что внутри

Google не раскрывает полную архитектуру, но из публикации и технического блога следуют ключевые детали. Модель построена на базе Gemini 3.1 Flash и обучена на смеси аудио-текстовых данных с акцентом на потоковую обработку в реальном времени. В отличие от традиционных ASR (automatic speech recognition) + TTS (text-to-speech) цепочек, где аудио сначала переводится в текст, а затем текст в речь, Flash Live работает как энд-to-энд голосовая модель: принимает аудио на вход и генерирует аудио на выходе, сохраняя просодические характеристики (интонация, паузы, темп) в едином диффузионном или авторегрессионном процессе.

Потоковая передача данных работает в оба конца одновременно — full-duplex. Это означает, что модель не ждёт, пока пользователь закончит говорить, чтобы начать отвечать. Она может перебивать, ставить паузы, реагировать на интонацию в реальном времени. Именно это свойство отличает «естественный» голосовой интерфейс от «список команд → ответ → конец».

Режим «thinking» (о котором упоминается в результатах 36.1% на Audio MultiChallenge) добавляет внутреннюю цепочку рассуждений перед генерацией ответа. Когда модель получает сложную многошаговую команду, она «думает» — строит план действий, проверяет ограничения, оценивает альтернативы — перед тем как начать отвечать или выполнять действие. Это добавляет задержку (latency), но критически повышает качество на сложных сценариях.

ComplexFuncBench Audio: что это за бенчмарк

ComplexFuncBench — специализированный бенчмарк для голосовых агентов, разработанный Google совместно с внешними исследователями. В отличие от общих бенчмарков распознавания речи, он построен вокруг сценариев выполнения функций: бронирование, заказ, планирование, работа с базами данных через голосовой интерфейс.

Каждый тест-кейс включает естественную речь разной степени сложности: от простого «забронируй столик на завтра» до составных команд с условиями, отменами и запасными вариантами. Важный момент: аудио записывается разными дикторами, с разным темпом, акцентом и фоновым шумом — имитируя реальные звонки в колл-центр. 90.8% означает, что модель корректно выполняет задачу в 9 из 10 таких сценариев.

Для сравнения: типичные голосовые ассистенты предыдущего поколения (2023–2024) набирают на аналогичных бенчмарках 65–75%. Переход от 70% к 90% — это разница между системой, которая «иногда работает» и системой, которая «работает в большинстве случаев». На практике это означает сокращение количества повторных попыток и переформулировок в голосовом интерфейсе.

Почему это важно

Голосовые ассистенты прошли три фазы. Первая — команды (включить свет, поиск). Вторая —一问一答 (ответить на вопрос, найти информацию). Третья — собеседник, который ведёт длинный диалог, помнит контекст, понимает намёки и адаптируется. Gemini 3.1 Flash Live — модель третьей фазы: она способна работать как голосовой агент, который не сбрасывается после пятого вопроса.

Разрыв между качеством синтезированного аудио и естественной речью сокращается. 90.8% на ComplexFuncBench Audio означает, что модель корректно обрабатывает многошаговые голосовые сценарии в большинстве случаев. При ежедневном использовании это означает: меньше «повторите, пожалуйста», меньше сбросов контекста, больше задач, которые решаются одним голосовым запросом.

Отдельный сигнал — участие крупных компаний в пилотах. Verizon (телеком), LiveKit (инфраструктура реального времени), The Home Depot (ритейл). Это не лабораторные тесты, а production-сценарии: колл-центры, голосовые ассистенты для клиентов, внутренние системы поддержки. Когда крупный ритейлер с миллионами звонков в год тестирует технологию и даёт положительный feedback — это говорит о готовности к массовому внедрению.

Глобальный запуск Search Live в 200+ странах одновременно с релизом модели — это тоже сигнал. Google не стала тянуть с распределением: модель работает на их инфраструктуре, и чем больше пользователей её используют, тем больше данных для улучшения. Это стратегическое решение, а не жест доброй воли.

Часто задаваемые вопросы

Чем Gemini 3.1 Flash Live отличается от предыдущих голосовых моделей Google?

Главные отличия — двойная длина контекста беседы, улучшенное понимание тона и эмоций, и бенчмарк-результаты 90.8% на ComplexFuncBench Audio и 36.1% на Audio MultiChallenge с «thinking». Модель также изначально мультиязычна и поддерживает SynthID-watermarking для всего сгенерированного аудио. Предыдущие модели фокусировались на распознавании команд и коротких запросах; 3.1 Flash Live ориентирована на длинные связные диалоги с многошаговыми задачами.

Что такое SynthID и зачем он нужен?

SynthID — технология водяных знаков от Google DeepMind, встраивающая незаметный для человеческого уха сигнал в сгенерированное аудио. Watermarking сохраняется при перекодировании и микшировании с фоновой музыкой. Это позволяет идентифицировать ИИ-аудио и бороться с дипфейковой дезинформацией. Все коммерческие генеративные аудиопродукты Google теперь содержат этот маркер по умолчанию.

Как получить доступ к модели?

Разработчики — через Gemini Live API в Google AI Studio (бесплатно в превью). Бизнес — через Gemini Enterprise for Customer Experience. Обычные пользователи — через Search Live и Gemini Live, которые уже работают более чем в 200 странах. Интеграция в собственные продукты возможна через REST API с потоковой передачей аудио.

Что означает 36.1% на Audio MultiChallenge?

36.1% — результат с включённым режимом «thinking» на бенчмарке Scale AI Audio MultiChallenge, который тестирует сложное следование инструкциям в реалистичных условиях (шум, перебивы, нечёткие формулировки). Это не кажется высоким, но для контекста: предыдущие модели на аналогичных тестах получали 15–20%. 36% означает, что каждая третья сложная команда выполняется корректно — порог, при котором система уже применима в production для части сценариев.

Итог

Gemini 3.1 Flash Live — не просто «улучшенный голосовой ввод». Это модель, которая сокращает разрыв между голосовым интерфейсом и полноценным собеседником. 90.8% на ComplexFuncBench Audio, понимание тона и эмоций, двойная длина контекста, SynthID-watermarking и глобальный запуск на 200+ стран — конкретные цифры, за которыми стоит практическая применимость. Если вы строите голосового агента или ассистента — эта модель меняет верхнюю границу того, что возможно в реальном времени.

← Все записи