Métodos Estocásticos Aprimoram Modelagem de Prosódia em Síntese de Fala
Um estudo recente, detalhado no artigo "Investigating Stochastic Methods for Prosody Modeling in Speech Synthesis" disponível no arXiv (arXiv:2507.00227), investiga a eficácia de métodos estocásticos para esta tarefa. A pesquisa compara abordagens estocásticas, incluindo Normalizing Flows, Conditional Flow Matching e Rectified Flows, com uma linha de base determinística tradicional e realizações de fala humana real.
As avaliações extensivas, tanto subjetivas quanto objetivas, demonstram que os métodos estocásticos são capazes de produzir prosódia natural, equiparando-se a falantes humanos, ao capturar a variabilidade encontrada na fala real. Além disso, esses métodos introduzem opções adicionais de controlabilidade, permitindo, por exemplo, ajustar a temperatura de amostragem para influenciar as características da prosódia gerada.
Os resultados experimentais indicam que modelar parâmetros prosódicos de maneira em cascata resulta em melhor desempenho do que modelá-los conjuntamente, embora a ordem específica dessa cascata não tenha um impacto significativo. Avaliações subjetivas revelam uma correlação inversa entre a diversidade prosódica entre diferentes "takes" e a naturalidade da prosódia. O estudo demonstra como a temperatura de amostragem pode ser utilizada para controlar efetivamente o equilíbrio entre esses dois aspectos durante a inferência.