Postagens

Mostrando postagens com o rótulo Processamento de Texto

Aprendizagem Incremental Multimodal com Modelos Pré-Treinados e Fusão Adaptativa

Um recente artigo disponível no repositório arXiv, intitulado "Leveraging Pre-Trained Models for Multimodal Class-Incremental Learning under Adaptive Fusion" (arXiv:2506.09999), apresenta um novo método para a Aprendizagem Incremental de Classes Multimodais (MCIL). Ao contrário das abordagens tradicionais que frequentemente se limitam às modalidades de visão e texto, este trabalho explora a MCIL abrangendo visão, áudio e texto simultaneamente. O principal desafio abordado é a integração eficaz de informações complementares dessas diferentes modalidades, enquanto se mitiga o problema do esquecimento catastrófico, comum em cenários de aprendizagem incremental. Para superar essas dificuldades, os autores propõem um método MCIL inovador baseado no uso de modelos multimodais pré-treinados. A arquitetura proposta inclui vários componentes-chave. Primeiramente, um Extrator de Características Incremental Multimodal (MIFE), baseado na estrutura Mixture-of-Experts (MoE), é introduzi...