Postagens

Mostrando postagens com o rótulo Processamento de Áudio

Melhorando o Rastreamento de Voz com Embeddings de Locutor

Métodos tradicionais de rastreamento de locutores frequentemente dependem de observações espaciais para manter a identidade das trilhas ao longo do tempo. Contudo, essa abordagem encontra dificuldades em cenários com locutores intermitentes ou em movimento. Locutores que mudam de posição enquanto estão inativos podem gerar trajetórias espaciais descontínuas, desafiando a atribuição coerente de identidades. Um artigo recente propõe investigar o uso de *speaker embeddings* (incorporações de locutor) como uma solução para este problema. A abordagem centra-se na reatribuição de identidade pós-rastreamento, utilizando essas representações vetoriais da voz dos locutores. O método proposto aproveita informações relacionadas à trajetória fornecidas por uma etapa inicial de rastreamento, combinadas com o sinal de áudio multicanal. A técnica de *beamforming* (conformação de feixe) é empregada para realçar o sinal na direção das posições dos locutores, visando a extração de *embeddings* de ...

Aprendizagem Incremental Multimodal com Modelos Pré-Treinados e Fusão Adaptativa

Um recente artigo disponível no repositório arXiv, intitulado "Leveraging Pre-Trained Models for Multimodal Class-Incremental Learning under Adaptive Fusion" (arXiv:2506.09999), apresenta um novo método para a Aprendizagem Incremental de Classes Multimodais (MCIL). Ao contrário das abordagens tradicionais que frequentemente se limitam às modalidades de visão e texto, este trabalho explora a MCIL abrangendo visão, áudio e texto simultaneamente. O principal desafio abordado é a integração eficaz de informações complementares dessas diferentes modalidades, enquanto se mitiga o problema do esquecimento catastrófico, comum em cenários de aprendizagem incremental. Para superar essas dificuldades, os autores propõem um método MCIL inovador baseado no uso de modelos multimodais pré-treinados. A arquitetura proposta inclui vários componentes-chave. Primeiramente, um Extrator de Características Incremental Multimodal (MIFE), baseado na estrutura Mixture-of-Experts (MoE), é introduzi...

Nova Abordagem Data-Driven Explica Deepfakes de Áudio

Uma nova pesquisa aborda o desafio de explicar por que modelos de detecção identificam áudios como falsos (deepfakes). Avaliar técnicas de explicabilidade, como SHAP e LRP, no contexto da detecção de deepfake de áudio é difícil devido à falta de anotações de verdade fundamental claras. Mesmo quando a verdade fundamental está disponível, esses métodos tradicionais frequentemente falham em fornecer explicações precisas. Para superar essa limitação, pesquisadores propuseram uma abordagem inovadora baseada em dados para identificar regiões com artefatos em áudios deepfake. O método utiliza pares de áudios reais e "vocoded" (sintetizados por vocoder), considerando a diferença em sua representação tempo-frequência como a verdade fundamental para a explicação. Essa representação é tipicamente um espectrograma log-magnitude, e a diferença entre o áudio falso (spoof) e o áudio real (bona fide) correspondente é usada para destacar as regiões de artefato. Para obter regiões significa...