Pular para o conteúdo principal

Nova Abordagem Data-Driven Explica Deepfakes de Áudio

Uma nova pesquisa aborda o desafio de explicar por que modelos de detecção identificam áudios como falsos (deepfakes). Avaliar técnicas de explicabilidade, como SHAP e LRP, no contexto da detecção de deepfake de áudio é difícil devido à falta de anotações de verdade fundamental claras. Mesmo quando a verdade fundamental está disponível, esses métodos tradicionais frequentemente falham em fornecer explicações precisas.

Para superar essa limitação, pesquisadores propuseram uma abordagem inovadora baseada em dados para identificar regiões com artefatos em áudios deepfake. O método utiliza pares de áudios reais e "vocoded" (sintetizados por vocoder), considerando a diferença em sua representação tempo-frequência como a verdade fundamental para a explicação. Essa representação é tipicamente um espectrograma log-magnitude, e a diferença entre o áudio falso (spoof) e o áudio real (bona fide) correspondente é usada para destacar as regiões de artefato. Para obter regiões significativas, os espectrogramas são suavizados usando um kernel Gaussiano 2D. A máscara de verdade fundamental é então derivada normalizando a diferença absoluta e binarizando-a com base em um limiar.

O sinal de diferença serve então como supervisão para treinar um modelo de difusão, especificamente uma arquitetura SegDiff, para expor os artefatos de deepfake no áudio vocoded fornecido. O processo de difusão envolve a remoção iterativa de ruído aleatório condicionada a entradas específicas. Duas estratégias de condicionamento foram exploradas: SpecSegDiff, condicionada diretamente no espectrograma falso, e ADDSegDiff, condicionada em características de um modelo de detecção de deepfake de áudio (ADD) pré-treinado.

Resultados experimentais nos conjuntos de dados VocV4 e LibriSeVoc demonstram que o método proposto supera as técnicas de explicabilidade tradicionais, tanto qualitativa quanto quantitativamente. A abordagem data-driven para gerar explicações para a tarefa de ADD, criando um conjunto de dados supervisionado no domínio tempo-frequência, permitiu uma comparação justa com as técnicas XAI clássicas. Os resultados indicam que as ferramentas XAI existentes não conseguem lidar com a especificidade necessária para a tarefa, evidenciando a necessidade de métodos que se alinhem melhor com a verdade fundamental dos artefatos de vocoder. O estudo conclui que a abordagem baseada em difusão oferece um método superior para gerar explicações de deepfake de áudio, produzindo mapas de calor (heatmaps) mais alinhados com a verdade fundamental dos artefatos e mais fiéis ao classificador. A generalidade do método em conjuntos de dados contendo artefatos de vocoder também é destacada. O trabalho foi aceito na conferência Interspeech 2025.

Postagens mais visitadas deste blog

Modelagem Estelar Avançada: Acoplamento 1D e 3D em Diferentes Metalicidades

Percepções de Professores sobre a Integração do GPT-4 no Ensino Médio

IA e Topologia Preveem Ratings de Crédito Bancário com Nova Rede Neural

Melhorando a Compreensão de Cidades 3D com Integração Multimídia

Gerenciamento Ótimo de Energia em VE Autônomos sob Temperaturas Frias com Controle Preditivo

Extensão de Arquivo Iris: Um Novo Formato para Patologia Digital Eficiente

Localização Multiuso com Deep Learning e Segmentação Semântica por Ângulo de Chegada

Novo Limite Superior para a Quantidade de Holevo na Física Quântica

Novas Cotas para Hamiltonianos Quânticos 2-Locais via Grafos Token