Ataques de Envenenamento em Modelos de Difusão: Análise e Defesa com Safe-Zone Training
Os autores introduzem os "Semantic Sensitivity Maps", um método inovador para visualizar a influência do envenenamento em embeddings de texto. Através desta técnica, eles conseguem identificar e verificar experimentalmente que os modelos de difusão exibem um comportamento de aprendizado não uniforme ao longo dos passos de tempo, com foco em amostras de ruído mais baixo. Os ataques de envenenamento herdam esse viés, injetando sinais adversariais predominantemente em passos de tempo mais baixos. Além disso, observou-se que esses sinais adversariais desviam o aprendizado de regiões de conceito relevantes dentro dos dados de treinamento, corrompendo o processo de Textual Inversion.
Com base nessas descobertas, os pesquisadores propõem uma nova mecânica de defesa chamada Safe-Zone Training (SZT). Esta abordagem é composta por três componentes-chave: (1) compressão JPEG para enfraquecer sinais de envenenamento de alta frequência; (2) restrição a passos de tempo mais altos durante o treinamento de TI para evitar sinais adversariais em passos de tempo mais baixos; e (3) mascaramento de perdas para restringir o aprendizado a regiões relevantes. Experimentos extensivos conduzidos com múltiplos métodos de envenenamento demonstraram que o SZT melhora significativamente a robustez da Textual Inversion contra todos os ataques, superando defesas publicadas anteriormente e aprimorando a qualidade generativa.
Este estudo aprofunda a compreensão dos mecanismos por trás dos ataques de envenenamento em modelos de difusão e oferece uma solução prática e eficaz para fortalecer a segurança e a integridade de técnicas de personalização como a Textual Inversion, o que é crucial para o avanço seguro da inteligência artificial.