Postagens

Mostrando postagens com o rótulo Ataques Adversariais

Ataques de Envenenamento em Modelos de Difusão: Análise e Defesa com Safe-Zone Training

Ataques de envenenamento de dados representam um desafio significativo para a robustez de modelos de difusão (DMs), especialmente em técnicas de personalização amplamente utilizadas como a Textual Inversion (TI). Uma pesquisa recente, intitulada "When and Where do Data Poisons Attack Textual Inversion?", realizada por Jeremy Styborski, Mingzhi Lyu, Jiayou Lu, Nupur Kapur e Adams Kong, aborda sistematicamente quando e onde esses ataques de envenenamento impactam a Textual Inversion, propondo uma nova defesa. O trabalho foi aceito para apresentação na ICCV. Os autores introduzem os "Semantic Sensitivity Maps", um método inovador para visualizar a influência do envenenamento em embeddings de texto. Através desta técnica, eles conseguem identificar e verificar experimentalmente que os modelos de difusão exibem um comportamento de aprendizado não uniforme ao longo dos passos de tempo, com foco em amostras de ruído mais baixo. Os ataques de envenenamento herdam esse vi...

Novo Ataque com IA Expõe Vulnerabilidade em Detecção de Fraudes em Seguros de Saúde

A detecção de fraudes em sinistros de seguros representa um avanço crucial nos serviços de seguros modernos, proporcionando monitoramento inteligente e digitalizado para aprimorar a gestão e prevenir atividades fraudulentas. Essa capacidade é fundamental para garantir a segurança e a eficiência dos sistemas de seguros. Atualmente, algoritmos de inteligência artificial (IA) e aprendizado de máquina (ML) demonstram forte desempenho na identificação de sinistros fraudulentos. No entanto, a ausência de mecanismos de defesa padronizados torna os sistemas atuais suscetíveis a ameaças adversárias emergentes. Nesse contexto, uma pesquisa recente propõe um método de ataque baseado em Redes Generativas Adversariais (GANs) para realizar ataques adversários em sistemas de detecção de fraudes. Os resultados da pesquisa indicam que um atacante, mesmo sem conhecimento dos dados de treinamento ou dos detalhes internos do modelo de detecção, pode gerar casos fraudulentos que são classificados com...