O responsável por relações com desenvolvedores de IA da Google, Logan Kilpatrick, anunciou em 15 de abril o lançamento do Gemini 3.1 Flash TTS — o modelo mais recente de texto para fala da Google. Este modelo oferece suporte a 70 idiomas, controle refinado no nível do diretor de cena (scene direction), do falante e marcações de áudio; no momento, já está disponível para uso no playground de áudio do Google AI Studio e na Gemini API.
Quatro recursos centrais
O Gemini 3.1 Flash TTS, em comparação com a geração anterior, traz quatro melhorias notáveis:
Diretor de cena (Scene Direction) — é possível definir contextos para a voz, como “falar baixinho em um café barulhento” ou “anunciar empolgado uma boa notícia”; o modelo ajusta o tom, a velocidade de fala e a emoção de acordo com o cenário
Controle no nível do falante (Speaker-Level Specificity) — em diálogos com múltiplos personagens, é possível definir características de voz diferentes para cada personagem
Marcações de áudio (Audio Tags) — suporta inserir comandos de efeitos sonoros no texto, controlando detalhes como pausas e variações de entonação
Suporte a 70 idiomas — amplia significativamente a cobertura multilíngue, incluindo chinês
Voz mais natural e expressiva
O Google destaca os avanços deste modelo em naturalidade de voz. Modelos tradicionais de TTS costumam ter sua saída criticada como “soando como IA”. O Gemini 3.1 Flash TTS tenta reduzir a distância em relação à fala humana por meio de variações de prosódia e expressões emocionais mais ricas. Kilpatrick apontou que o progresso do Gemini 2.5 para o 3.1 é “bem significativo”.
Como os desenvolvedores podem usar
Os desenvolvedores podem usar de duas maneiras:
Google AI Studio Audio Playground — testar e pré-visualizar diretamente na interface da web
Gemini API — integrar em aplicativos para casos como assistentes de voz, audiolivros, geração automática de Podcast, atendimento ao cliente multilíngue etc.
A linha de produtos Gemini continua se expandindo
O Flash TTS faz parte de uma fase recente de lançamentos intensivos da série Gemini 3.1. Antes disso, a Google já havia lançado o Gemini Robotics ER 1.6 (raciocínio visual de robôs), o Tab Tab Tab (complemento de prompt do Vibe Coding) e funções como pré-visualização de design. A Google está expandindo o Gemini de “modelo de chat” para uma plataforma de IA multimodal completa que engloba texto, voz, visão e robôs.
Este artigo “A Google lança o Gemini 3.1 Flash TTS: suporte a 70 idiomas e direção de cena, voz de IA mais natural” apareceu pela primeira vez em Cadeia News ABMedia.
Aviso: As informações nesta página podem ser provenientes de terceiros e não representam as opiniões ou pontos de vista da Gate. O conteúdo exibido nesta página é apenas para referência e não constitui aconselhamento financeiro, de investimento ou jurídico. A Gate não garante a exatidão ou integridade das informações e não será responsável por quaisquer perdas decorrentes do uso dessas informações. Os investimentos em ativos virtuais apresentam altos riscos e estão sujeitos a uma volatilidade de preços significativa. Você pode perder todo o capital investido. Por favor, compreenda completamente os riscos envolvidos e tome decisões prudentes com base em sua própria situação financeira e tolerância ao risco. Para mais detalhes, consulte o
Aviso Legal.
Related Articles
O fundador da Pi Network em 7 de maio discutiu a identificação da identidade humana na era da IA no Consensus 2026
O fundador da Pi Network, Nicolas Kokkalis, participará no dia 7 de maio da conferência Consensus 2026, em Miami, juntando-se a um painel de especialistas que discutirá o tema de identificação humana on-line na era da inteligência artificial (IA). De acordo com a programação oficial do evento, esta discussão em painel reunirá especialistas nas áreas de identidade, privacidade e confiança digital.
MarketWhisper13m atrás
DeepX e Hyundai Motor Group Desenvolvem Plataforma de Chip de IA de Baixo Consumo para Robôs
A DeepX, da Coreia do Sul, e o Robotics Lab do Hyundai Motor Group estão colaborando em uma plataforma de computação de IA de baixo consumo para aplicações robóticas em tempo real. Utilizando o chip DX-M2 da DeepX, a parceria busca otimizar robôs com custos e consumo de energia reduzidos, refletindo uma tendência do setor em direção a chips especializados.
GateNews21m atrás
Playdate Proíbe Arte, Música e Texto Gerados por IA; Assistentes de Código Ainda São Permitidos
A Panic Inc. anunciou uma proibição de ferramentas de IA generativa para arte, música, escrita e diálogos em jogos para o console Playdate. Assistentes de codificação por IA são permitidos com divulgação. A decisão segue reação negativa a um jogo desenvolvido com IA.
GateNews31m atrás
A Amazon adiciona um investimento de 5 bilhões na Anthropic e um acordo de 10 anos com a AWS garante computação de 1 trilhão
A Amazon anunciou em 20 de abril um investimento adicional de US$ 5 bilhões na Anthropic, fazendo com que o total acumulado de compromissos de investimento desde 2023 alcance US$ 13 bilhões, e deixando espaço para fundos adicionais vinculados a um marco comercial futuro de até US$ 20 bilhões. Em contrapartida, a Anthropic se compromete a investir mais de US$ 100 bilhões na infraestrutura da AWS nos próximos dez anos, em troca de recursos computacionais de 5 GW.
MarketWhisper47m atrás
Deputados de Nova York propõem “bônus de IA” para lidar com a onda de desemprego; o Goldman Sachs estima uma perda mensal de 16 mil empregos
O deputado estadual de Nova York e candidato ao Congresso Alex Bores anunciou no domingo um plano de “bônus de IA”, que visa pagar diretamente aos cidadãos americanos quando a inteligência artificial substituir de forma significativa os trabalhadores dos EUA. O contexto para o anúncio do plano é que um relatório do Goldman Sachs mostra que a popularização da IA já levou à perda de cerca de 16 mil vagas de emprego por mês nos Estados Unidos, e grandes empresas de tecnologia como Amazon, Meta, Intel e Microsoft anunciaram demissões em larga escala sucessivamente.
MarketWhisper52m atrás
O QClaw internacional da Tencent inicia testes em fase beta, com 700 dólares em tokens para os usuários do Japão entrarem primeiro na fila
O produto de agentes de IA da QClaw, da equipe do Tencent PC Manager, anunciou em 20 de abril que a versão internacional foi oficialmente aberta para testes em fase inicial. A primeira leva abrange os Estados Unidos, Canadá, Singapura e Coreia do Sul, com suporte a vários idiomas, como chinês, inglês, francês, espanhol e coreano. Durante o período de testes, serão oferecidos diariamente 40 milhões de Tokens, ao mesmo tempo em que serão abertos os primeiros 20.000 lugares para “Founding Claw (創始龍蝦)”, por ordem de chegada.
MarketWhisper1h atrás