Pular para o conteúdo principal

Ataques de Envenenamento em Modelos de Difusão: Análise e Defesa com Safe-Zone Training

Ataques de envenenamento de dados representam um desafio significativo para a robustez de modelos de difusão (DMs), especialmente em técnicas de personalização amplamente utilizadas como a Textual Inversion (TI). Uma pesquisa recente, intitulada "When and Where do Data Poisons Attack Textual Inversion?", realizada por Jeremy Styborski, Mingzhi Lyu, Jiayou Lu, Nupur Kapur e Adams Kong, aborda sistematicamente quando e onde esses ataques de envenenamento impactam a Textual Inversion, propondo uma nova defesa. O trabalho foi aceito para apresentação na ICCV.

Os autores introduzem os "Semantic Sensitivity Maps", um método inovador para visualizar a influência do envenenamento em embeddings de texto. Através desta técnica, eles conseguem identificar e verificar experimentalmente que os modelos de difusão exibem um comportamento de aprendizado não uniforme ao longo dos passos de tempo, com foco em amostras de ruído mais baixo. Os ataques de envenenamento herdam esse viés, injetando sinais adversariais predominantemente em passos de tempo mais baixos. Além disso, observou-se que esses sinais adversariais desviam o aprendizado de regiões de conceito relevantes dentro dos dados de treinamento, corrompendo o processo de Textual Inversion.

Com base nessas descobertas, os pesquisadores propõem uma nova mecânica de defesa chamada Safe-Zone Training (SZT). Esta abordagem é composta por três componentes-chave: (1) compressão JPEG para enfraquecer sinais de envenenamento de alta frequência; (2) restrição a passos de tempo mais altos durante o treinamento de TI para evitar sinais adversariais em passos de tempo mais baixos; e (3) mascaramento de perdas para restringir o aprendizado a regiões relevantes. Experimentos extensivos conduzidos com múltiplos métodos de envenenamento demonstraram que o SZT melhora significativamente a robustez da Textual Inversion contra todos os ataques, superando defesas publicadas anteriormente e aprimorando a qualidade generativa.

Este estudo aprofunda a compreensão dos mecanismos por trás dos ataques de envenenamento em modelos de difusão e oferece uma solução prática e eficaz para fortalecer a segurança e a integridade de técnicas de personalização como a Textual Inversion, o que é crucial para o avanço seguro da inteligência artificial.

Postagens mais visitadas deste blog

Evolução Não Linear da Instabilidade de Sedimentação de Poeira Polidispersa Não Estratificada

Otimização de Preferências em Veículos Autônomos: A Abordagem Lexicográfica IBR

O Impacto Transformador do Observatório Pierre Auger em Malargüe

Fonocardiografia Fetal: Avaliação Padronizada para Detecção de Batimentos Cardíacos

DESA: Desvendando Propriedades Estelares com IA Multimodal

Desvendando o Cosmos: O Papel da Fotônica em Instrumentos Astronômicos de Próxima Geração

Emulação da Evolução de Halos de Matéria Escura com Modelos Generativos Gráficos

SSDs: Otimização Essencial para o Futuro do Armazenamento de Dados

PyMGal: Gerando Observações Ópticas Sintéticas de Simulações Astrofísicas

NeutroSENSE: Detecção de Intrusões em IoT com Lógica Neutrosófica e Abstenção Inteligente