AI Voices O Futuro do Voice-Over Audio

AI Voices O Futuro do Voice-Over Audio

Desde o momento em que Steve Jobs primeiro revelado o Macintosh que se apresentou com Text-to-Speech em 1984 para o Google mostrando seu assistente de voz agendando um compromisso por telefone durante IO do Google 2018, A tecnologia de voz, em particular, a tecnologia de síntese de voz evoluiu com um grau inimaginável de realismo que muitos gigantes da tecnologia acreditam Voices AI - O Futuro da Voice-Over Audio

Graças ao aprendizado de máquina, a percepção de vozes de computador, também conhecidas como vozes de conversão de texto em voz, de serem robóticas, monótonas e sem vida foi agora transformada em vozes realistas que soam naturais. Eles não são apenas capazes de imitar a fala humana, mas podem gerar narrações de áudio quase perfeitas de comprimento total.

Ouça essas amostras, por exemplo -

Um resumo do livro Voice over com vozes sintéticas
Voice Over de visualização do produto

Aqui estão mais alguns exemplos de narração

Vozes de IA agora estão sendo usadas em aplicativos convencionais com este nível sem precedentes de qualidade em uma voz gerada por computador, como criação de audiolivros, narração de postagens de blog ou notícias, criação de vozes para vídeos, elearning etc. Reduzindo assim a necessidade de contratar dubladores profissionais.

Com a enorme quantidade de P&D que está acontecendo em torno de projetos de código aberto e a competição entre empresas de tecnologia para criar vozes ainda mais realistas; As vozes de IA só vão ficar melhores, mais baratas e mais acessíveis.

Mas as vozes de IA podem substituir completamente os dubladores?

Vejamos alguns dos principais fatores que entram em jogo ao criar áudio de narração, especialmente ao contratar atores de narração para compará-los com vozes de IA.

Custo de criação de áudio de voz

Contratar dubladores é caro. Um ator de voz médio cobra US $ 50- $ 100 para cada 100 palavras.

Alguns dubladores podem até cobrar milhares de dólares, dependendo do motivo para o qual você os está contratando - é um audiolivro comercial? O preço varia. E há um custo adicional para garantir os direitos comerciais ou de distribuição do áudio.

As vozes de IA, por outro lado, custam uma fração do custo - US $ 16 para converter cerca de 142 mil palavras. As vozes padrão são ainda mais baratas - $ 4 para a mesma quantidade de palavras. Além disso, você tem os direitos de possuir, distribuir e comercializar o áudio como desejar.

Qualidade de áudio

Hoje, o objetivo do Text-to-Speech é fazer com que as vozes soem melhor do que as humanas. Embora, chegando mais perto de seu objetivo, eles simplesmente não tenham chegado lá ainda.

Ainda existem nuances na fala que a tornam “automatizada” e, embora possam não ser aplicáveis ​​à criação de locuções para comerciais e rádios, são perfeitamente adequadas para muitas outras aplicações que não exigem uma expressividade tão elevada.

A qualidade de uma voz sintética é medida por esses parâmetros
1. Inteligibilidade - Grau de cada palavra pronunciada na frase
2. Naturalidade - Em termos de tempo, pronúncia e emoções de apresentação
3. Compreensibilidade - Grau de compreensão da mensagem
E as vozes de IA de hoje se destacam nos parâmetros acima.

O Conversacional e apresentador de notícias os perfis criados pela Amazon aumentam ainda mais a qualidade de voz das vozes de IA.

Depende do caso de uso, entretanto, não é para todos os aplicativos que você pode usar uma voz de IA.

Por exemplo, você não pode ter um comercial de TV dublado por uma voz de IA, mas sim uma voz para um anúncio no Facebook para sua pequena empresa? É claro!

Hora de criar o áudio

Normalmente, os artistas de voice over levam dias para terminar a gravação, dependendo da quantidade de texto para voz. Normalmente, o tempo é perdido enquanto você encontra a voz certa para o trabalho. Depois que a gravação for enviada, é necessário editar ou alterar algo.

O que deveria ser um trabalho de 2 dias pode rapidamente se transformar em uma pia de 5 a 7 dias. Resumindo, leva tempo para um humano gravar, editar e tornar o áudio perfeito.

As vozes de IA, por outro lado, podem gerar o áudio quase instantaneamente. Além disso, é rápido e fácil editar a gravação, pois é apenas uma questão de editar o texto e gerar o áudio novamente.

Escalabilidade

Artistas de voz parece viável ao trabalhar em projetos menores, como vídeo do YouTube ou podcasts. onde tudo o que é preciso é identificar o artista certo e trabalhar para fazer o trabalho, o que levaria de 24 a 48 horas. Mas quando um projeto é grande e requer horas de investimento, os locutores aumentam a dependência e os fatores de risco potenciais de não cumprimento de prazos que levam a perdas.

Bem, para vozes de IA, não é o caso. AI Voices são hospedados na nuvem, o que significa que eles podem lidar com qualquer quantidade de texto enviada a eles e convertê-los ao mesmo tempo. Eles oferecem uma solução muito mais escalonável do que os humanos.

Múltiplos idiomas

As vozes de IA oferecem a flexibilidade de escolher entre 50 idiomas diferentes e criar áudio usando qualquer um desses idiomas. Pode-se traduzir facilmente o conteúdo original em vários idiomas e usar as vozes de IA de diferentes idiomas para criar áudio em várias traduções, economizando muito tempo e dinheiro tentando encontrar vários atores.

Conclusão

A tecnologia de voz já percorreu um longo caminho e agora está em um ponto em que vozes de IA são capazes de gerar áudio semelhante ao humano, tornando-as úteis em aplicações convencionais que, de outra forma, teriam exigido a contratação de um artista de voice over. As vozes de IA oferecem uma grande oportunidade de economizar tempo e custos ao criar conteúdo de áudio de alta qualidade.

Mesmo que as vozes de IA ainda estejam longe de entregar a expressividade e a experiência criadas por um ator de voz real. Eles podem não ser adequados para dar voz a comerciais ou conteúdo de rádio, é apenas uma questão de tempo que essas vozes se adaptem para soar exatamente como dubladores profissionais, se não melhor.

Você também pode estar interessado em