Nova Abordagem Data-Driven Explica Deepfakes de Áudio
Para superar essa limitação, pesquisadores propuseram uma abordagem inovadora baseada em dados para identificar regiões com artefatos em áudios deepfake. O método utiliza pares de áudios reais e "vocoded" (sintetizados por vocoder), considerando a diferença em sua representação tempo-frequência como a verdade fundamental para a explicação. Essa representação é tipicamente um espectrograma log-magnitude, e a diferença entre o áudio falso (spoof) e o áudio real (bona fide) correspondente é usada para destacar as regiões de artefato. Para obter regiões significativas, os espectrogramas são suavizados usando um kernel Gaussiano 2D. A máscara de verdade fundamental é então derivada normalizando a diferença absoluta e binarizando-a com base em um limiar.
O sinal de diferença serve então como supervisão para treinar um modelo de difusão, especificamente uma arquitetura SegDiff, para expor os artefatos de deepfake no áudio vocoded fornecido. O processo de difusão envolve a remoção iterativa de ruído aleatório condicionada a entradas específicas. Duas estratégias de condicionamento foram exploradas: SpecSegDiff, condicionada diretamente no espectrograma falso, e ADDSegDiff, condicionada em características de um modelo de detecção de deepfake de áudio (ADD) pré-treinado.
Resultados experimentais nos conjuntos de dados VocV4 e LibriSeVoc demonstram que o método proposto supera as técnicas de explicabilidade tradicionais, tanto qualitativa quanto quantitativamente. A abordagem data-driven para gerar explicações para a tarefa de ADD, criando um conjunto de dados supervisionado no domínio tempo-frequência, permitiu uma comparação justa com as técnicas XAI clássicas. Os resultados indicam que as ferramentas XAI existentes não conseguem lidar com a especificidade necessária para a tarefa, evidenciando a necessidade de métodos que se alinhem melhor com a verdade fundamental dos artefatos de vocoder. O estudo conclui que a abordagem baseada em difusão oferece um método superior para gerar explicações de deepfake de áudio, produzindo mapas de calor (heatmaps) mais alinhados com a verdade fundamental dos artefatos e mais fiéis ao classificador. A generalidade do método em conjuntos de dados contendo artefatos de vocoder também é destacada. O trabalho foi aceito na conferência Interspeech 2025.