Google DeepMind выпустила новую модель синтеза речи "Gemini 3.1 Flash TTS", которая позволяет регулировать интонацию, скорость и атмосферу с помощью текстовых команд, поддерживая более 70 языков и множество акцентов. Эта модель ориентирована на естественность и оснащена функцией водяных знаков для борьбы с фальшивыми новостями. Ее производительность заняла второе место в слепых тестах, она подходит для различных областей и свидетельствует о росте конкуренции в области AI для генерации речи.

TechubNews

2026-04-17 13:48:52

Генерация тезисов в процессе

Группа искусственного интеллекта Google DeepMind обнародовала новую модель синтеза речи “Gemini 3.1 Flash TTS”. Ее основная особенность в том, что она не только может говорить более естественно, чем существующие механические голоса, но и позволяет пользователям тонко настраивать интонацию, скорость и атмосферу с помощью текстовых команд.

Управление интонацией, тоном и скоростью с помощью текстовых команд

Недавно компания Google LLC объявила через блог о запуске Gemini 3.1 Flash TTS. Эта модель при преобразовании ответов чат-бота в речь способна учитывать такие командные слова, как “энтузиазм”, “удивление”, “информативность”, чтобы изменять тон и тембр голоса.

Согласно опубликованному демонстрационному видео, пользователи могут не только выбрать голос, но и регулировать способ передачи речи и атмосферу. Если предыдущая версия TTS казалась немного “роботизированной”, то эта модель ориентирована на достижение более человеческого выражения.

Поддержка акцентов из разных регионов и форматы подкастов

Gemini 3.1 Flash TTS также предлагает множество региональных акцентов для основных языков. Например, для английского доступны американский “Valley” и “Southern” акценты, а также британские вариации “Brixton” и “RP”. Кроме того, есть специальные опции, такие как “через Атлантику”.

Google добавила в эту модель функцию “режиссерского контроля”. Пользователи могут более точно настраивать стиль и скорость речи, а также использовать шаблоны для подкастов, озвучивания аудиокниг, языковых наставников, голосовых помощников, руководств по здоровью, новостных ведущих, специалистов по поддержке клиентов и других форматов.

Особенно стоит отметить, что при установке сцен и окружения, а также вводе руководств по репликам, модель разработана так, чтобы сохранять согласованный стиль речи при многократных диалогах персонажей. Google объясняет, что завершенные настройки можно экспортировать в виде кода API Gemini для воспроизведения одинакового голоса в различных проектах и платформах.

Поддержка более 70 языков и внедрение водяных знаков

По словам Google, цель Gemini 3.1 Flash TTS — обеспечить более естественный голосовой опыт. Поддерживаются более 70 языков, включая японский, хинди, немецкий и другие.

Кроме того, весь вывод содержит встроенный водяной знак SynthID. Это делается для облегчения идентификации синтезированного AI голоса, что важно в свете возможных будущих проблем с глубокими подделками или распространением фальшивых новостей.

Рейтинг по слепым тестам — второй… разработчики могут сразу использовать

Эффективность модели также подтверждена определенными тестами. В “Artificial Analysis TTS排行榜”, где оцениваются предпочтения людей по слепым тестам, Gemini 3.1 Flash TTS заняла второе место с 1211 баллами. Google отмечает, что это означает более высокую оценку по сравнению с несколькими популярными моделями TTS.

На данный момент разработчики могут сразу использовать эту модель через API Gemini и Google AI Studio. Корпоративные клиенты имеют доступ через Vertex AI, а обычные пользователи — через Google Biz для пробного использования.

Этот запуск свидетельствует о том, что конкуренция в области генеративного AI быстро расширяется с текстовой и графической сферы на голосовой рынок. Особенно в условиях растущего спроса со стороны бизнеса на “естественный AI-голос” в сферах поддержки клиентов, медиа, образования и цифрового контента, Gemini 3.1 Flash TTS, вероятно, усилит конкуренцию в соответствующих сегментах рынка.

TP AI Внимание: статья была сокращена с помощью языковой модели TokenPost.ai. Основное содержание может быть опущено или не соответствовать фактам.

Посмотреть Оригинал

На этой странице может содержаться сторонний контент, который предоставляется исключительно в информационных целях (не в качестве заявлений/гарантий) и не должен рассматриваться как поддержка взглядов компании Gate или как финансовый или профессиональный совет. Подробности смотрите в разделе «Отказ от ответственности» .

Награда
лайк
комментарий
Репост
Поделиться

комментарий

Добавить комментарий

Нет комментариев

Популярные темы
Подробнее
#
GatePreIPOsLaunchesWithSpaceX
185.49K Популярность
#
Gate13thAnniversaryLive
734.39K Популярность
#
IsraelStrikesIranBTCPlunges
29.99K Популярность
#
AltcoinsRallyStrong
7.31M Популярность
#
AnthropicvsOpenAIHeatsUp
1.06M Популярность

Закрепить

Карта сайта

Google DeepMind, выпустила 'Gemini 3.1 Flash TTS'… позволяет регулировать интонацию и скорость речи с помощью текста

Популярные темы

GatePreIPOsLaunchesWithSpaceX

Gate13thAnniversaryLive

IsraelStrikesIranBTCPlunges

AltcoinsRallyStrong

AnthropicvsOpenAIHeatsUp

Закрепить