Melhorando o Rastreamento de Voz com Embeddings de Locutor
Um artigo recente propõe investigar o uso de *speaker embeddings* (incorporações de locutor) como uma solução para este problema. A abordagem centra-se na reatribuição de identidade pós-rastreamento, utilizando essas representações vetoriais da voz dos locutores.
O método proposto aproveita informações relacionadas à trajetória fornecidas por uma etapa inicial de rastreamento, combinadas com o sinal de áudio multicanal. A técnica de *beamforming* (conformação de feixe) é empregada para realçar o sinal na direção das posições dos locutores, visando a extração de *embeddings* de locutor mais robustos. Posteriormente, esses *embeddings* são utilizados para atribuir novas identidades de trilha com base em um pool de cadastro prévio.
A eficácia do método de reatribuição de identidade baseado em *speaker embeddings* foi avaliada em um conjunto de dados especificamente projetado, onde os locutores alteram sua posição durante períodos de inatividade. Os resultados demonstram uma melhoria consistente no desempenho da atribuição de identidade, tanto em sistemas de rastreamento neurais quanto nos padrões. O estudo também analisou o impacto da aplicação de *beamforming* e da duração do sinal de entrada na qualidade da extração dos *embeddings*.
Publicado em 23 de junho de 2025, o trabalho de Taous Iatariene, Can Cui, Alexandre Guérin e Romain Serizel, intitulado "Speaker Embeddings to Improve Tracking of Intermittent and Moving Speakers", foi submetido ao arXiv nas áreas de Processamento de Áudio e Fala, Inteligência Artificial e Som. A pesquisa indica que *speaker embeddings* podem ser observações valiosas relacionadas à identidade para aprimorar o rastreamento em cenários dinâmicos.