Melhorando o Rastreamento de Voz com Embeddings de Locutor
Métodos tradicionais de rastreamento de locutores frequentemente dependem de observações espaciais para manter a identidade das trilhas ao longo do tempo. Contudo, essa abordagem encontra dificuldades em cenários com locutores intermitentes ou em movimento. Locutores que mudam de posição enquanto estão inativos podem gerar trajetórias espaciais descontínuas, desafiando a atribuição coerente de identidades. Um artigo recente propõe investigar o uso de *speaker embeddings* (incorporações de locutor) como uma solução para este problema. A abordagem centra-se na reatribuição de identidade pós-rastreamento, utilizando essas representações vetoriais da voz dos locutores. O método proposto aproveita informações relacionadas à trajetória fornecidas por uma etapa inicial de rastreamento, combinadas com o sinal de áudio multicanal. A técnica de *beamforming* (conformação de feixe) é empregada para realçar o sinal na direção das posições dos locutores, visando a extração de *embeddings* de ...