Pular para o conteúdo principal

Nova Abordagem Data-Driven Explica Deepfakes de Áudio

Uma nova pesquisa aborda o desafio de explicar por que modelos de detecção identificam áudios como falsos (deepfakes). Avaliar técnicas de explicabilidade, como SHAP e LRP, no contexto da detecção de deepfake de áudio é difícil devido à falta de anotações de verdade fundamental claras. Mesmo quando a verdade fundamental está disponível, esses métodos tradicionais frequentemente falham em fornecer explicações precisas.

Para superar essa limitação, pesquisadores propuseram uma abordagem inovadora baseada em dados para identificar regiões com artefatos em áudios deepfake. O método utiliza pares de áudios reais e "vocoded" (sintetizados por vocoder), considerando a diferença em sua representação tempo-frequência como a verdade fundamental para a explicação. Essa representação é tipicamente um espectrograma log-magnitude, e a diferença entre o áudio falso (spoof) e o áudio real (bona fide) correspondente é usada para destacar as regiões de artefato. Para obter regiões significativas, os espectrogramas são suavizados usando um kernel Gaussiano 2D. A máscara de verdade fundamental é então derivada normalizando a diferença absoluta e binarizando-a com base em um limiar.

O sinal de diferença serve então como supervisão para treinar um modelo de difusão, especificamente uma arquitetura SegDiff, para expor os artefatos de deepfake no áudio vocoded fornecido. O processo de difusão envolve a remoção iterativa de ruído aleatório condicionada a entradas específicas. Duas estratégias de condicionamento foram exploradas: SpecSegDiff, condicionada diretamente no espectrograma falso, e ADDSegDiff, condicionada em características de um modelo de detecção de deepfake de áudio (ADD) pré-treinado.

Resultados experimentais nos conjuntos de dados VocV4 e LibriSeVoc demonstram que o método proposto supera as técnicas de explicabilidade tradicionais, tanto qualitativa quanto quantitativamente. A abordagem data-driven para gerar explicações para a tarefa de ADD, criando um conjunto de dados supervisionado no domínio tempo-frequência, permitiu uma comparação justa com as técnicas XAI clássicas. Os resultados indicam que as ferramentas XAI existentes não conseguem lidar com a especificidade necessária para a tarefa, evidenciando a necessidade de métodos que se alinhem melhor com a verdade fundamental dos artefatos de vocoder. O estudo conclui que a abordagem baseada em difusão oferece um método superior para gerar explicações de deepfake de áudio, produzindo mapas de calor (heatmaps) mais alinhados com a verdade fundamental dos artefatos e mais fiéis ao classificador. A generalidade do método em conjuntos de dados contendo artefatos de vocoder também é destacada. O trabalho foi aceito na conferência Interspeech 2025.

Postagens mais visitadas deste blog

Evolução Não Linear da Instabilidade de Sedimentação de Poeira Polidispersa Não Estratificada

Otimização de Preferências em Veículos Autônomos: A Abordagem Lexicográfica IBR

O Impacto Transformador do Observatório Pierre Auger em Malargüe

Fonocardiografia Fetal: Avaliação Padronizada para Detecção de Batimentos Cardíacos

DESA: Desvendando Propriedades Estelares com IA Multimodal

Desvendando o Cosmos: O Papel da Fotônica em Instrumentos Astronômicos de Próxima Geração

Emulação da Evolução de Halos de Matéria Escura com Modelos Generativos Gráficos

SSDs: Otimização Essencial para o Futuro do Armazenamento de Dados

PyMGal: Gerando Observações Ópticas Sintéticas de Simulações Astrofísicas

NeutroSENSE: Detecção de Intrusões em IoT com Lógica Neutrosófica e Abstenção Inteligente