Pesquisar
Close this search box.

Amazon Cria IA BASE TTS.

Amazon cria IA BASE TTS, o modelo de síntese de voz maior e mais avançado do mundo atualmente. Você já imaginou ter uma conversa com uma inteligência artificial, mas que soa como uma pessoa real, com voz natural e expressiva. Podendo lidar com textos complexos, emoções, palavras estrangeiras e muito mais? Pois é exatamente isso que a Amazon conseguiu fazer com o seu modelo de síntese de voz chamado Big Adaptive Streamable TTS, ou BASE TTS. Essa IA é utilizada no produto AMAZON POLLY, que faz do seu portifólio de soluções.

Neste artigo, eu vou explicar o que é o BASE TTS, como ele funciona e quais são os seus avanços recentes.

Leia também:

O que é o BASE TTS e como ele funciona

A Amazon cria IA BASE TTS BASE TTS, que é primordialmente um modelo de síntese de voz que usa 980 milhões de parâmetros e 100 mil horas de áudio para gerar fala natural e expressiva a partir de texto. O modelo foi treinado com dados em inglês, alemão, holandês e espanhol, além disso, mostrou habilidades emergentes para lidar com textos complexos, como nomes compostos, emoções, palavras estrangeiras, paralinguística, pontuações, perguntas e sintaxe.

O BASE TTS usa uma arquitetura de rede neural profunda, que consiste em três módulos principais: o módulo de texto, o módulo de áudio e o módulo de síntese. O de texto é responsável por analisar o texto de entrada e extrair as características linguísticas, como fonemas, acentos, pausas e entonações. O módulo de áudio é responsável por aprender as características acústicas, como timbre, ritmo, volume e emoção. O módulo de síntese é responsável por combinar as características linguísticas e acústicas e gerar o áudio de saída, que é transmitido em tempo real para o usuário.

O BASE TTS é um modelo adaptável, que significa que ele pode se ajustar às preferências e necessidades do usuário, como o idioma, o sotaque, o estilo e a velocidade da fala. O modelo também é streamable, que significa que ele pode gerar fala de forma contínua e sem atrasos, mesmo para textos longos ou desconhecidos.

Quais são os avanços recentes da BASE TTS

O BASE TTS é um dos maiores e mais avançados modelos de síntese de voz do mundo, e representa um grande passo para a criação de sistemas de conversação mais humanos e inteligentes. Os avanços recentes do BASE TTS incluem:

  • Aumento da qualidade da voz, com uma pontuação média de 4,5 em uma escala de 1 a 5, superando outros modelos de síntese de voz, como o Tacotron 2 e o FastSpeech 2. A voz do BASE TTS soa natural e expressiva, e pode variar de acordo com o contexto, o humor e a personalidade do texto.
  • Melhoria da naturalidade da fala, com uma redução de 25% na taxa de erros de pronúncia, e uma melhoria de 15% na taxa de sucesso de entonação. O BASE TTS pode pronunciar corretamente palavras difíceis, como nomes próprios, siglas, abreviações e palavras estrangeiras. O modelo também pode ajustar a entonação de acordo com o tipo e o propósito da frase, como afirmativa, interrogativa, exclamativa ou imperativa.
  • Ampliação da capacidade de generalização, com uma melhoria de 20% na taxa de sucesso de fala para textos não vistos durante o treinamento, bem como uma melhoria de 10% na taxa de sucesso de fala para textos em outros idiomas. O BASE TTS pode gerar fala para textos novos ou inesperados, como notícias, artigos, livros, piadas e poemas. Assim como também pode gerar fala para textos em idiomas diferentes dos que foram treinados, como francês, italiano, português e sueco.

Conclusão

A Amazon criou a IA BASE TTS, que é um modelo de síntese de voz que usa 980 milhões de parâmetros e 100 mil horas de áudio para gerar fala natural e expressiva a partir de texto. O modelo foi treinado com dados em diversos idiomas, de tal forma que mostrou habilidades para lidar com textos complexos, como:

  • nomes compostos
  • emoções
  • palavras estrangeiras
  • paralinguística
  • pontuações
  • perguntas
  • sintaxe.

O modelo também é adaptável e streamable, o que significa que ele pode se ajustar às preferências e necessidades do usuário, e gerar fala de forma contínua e sem atrasos.

Em resumo, BASE TTS é um dos maiores e mais avançados modelos de síntese de voz do mundo, e representa um grande passo para a criação de sistemas de conversação mais humanos e inteligentes. Os avanços recentes do BASE TTS incluem:

  • o aumento da qualidade da voz,
  • a melhoria da naturalidade da fala
  • ampliação da capacidade de generalização.

Se você gostou deste artigo, compartilhe-o com os seus amigos e familiares, e deixe um comentário abaixo. Você também pode experimentar o BASE TTS, que está disponível na plataforma da Amazon Web Services. Obrigado pela sua atenção e até a próxima!

Você também pode gostar:

Este blog utiliza cookies para garantir uma melhor experiência. Se você continuar assumiremos que você está satisfeito com ele.