Aprendizagem Incremental Multimodal com Modelos Pré-Treinados e Fusão Adaptativa
Um recente artigo disponível no repositório arXiv, intitulado "Leveraging Pre-Trained Models for Multimodal Class-Incremental Learning under Adaptive Fusion" (arXiv:2506.09999), apresenta um novo método para a Aprendizagem Incremental de Classes Multimodais (MCIL). Ao contrário das abordagens tradicionais que frequentemente se limitam às modalidades de visão e texto, este trabalho explora a MCIL abrangendo visão, áudio e texto simultaneamente. O principal desafio abordado é a integração eficaz de informações complementares dessas diferentes modalidades, enquanto se mitiga o problema do esquecimento catastrófico, comum em cenários de aprendizagem incremental.
Para superar essas dificuldades, os autores propõem um método MCIL inovador baseado no uso de modelos multimodais pré-treinados. A arquitetura proposta inclui vários componentes-chave. Primeiramente, um Extrator de Características Incremental Multimodal (MIFE), baseado na estrutura Mixture-of-Experts (MoE), é introduzido para permitir o ajuste fino incremental eficiente de modelos como o AudioCLIP.
Em seguida, para aprimorar a discriminabilidade e a capacidade de generalização das características extraídas, o artigo descreve um Módulo de Fusão Audiovisual Adaptativa (AAVFM). Este módulo incorpora um mecanismo de limiar de mascaramento e um mecanismo de fusão de características dinâmicas. Ele também utiliza uma estratégia para aumentar a diversidade textual, visando enriquecer a informação contextual disponível para o modelo e facilitar a distinção entre as diferentes classes.
O trabalho também propõe uma nova função de perda de treinamento contrastivo incremental de classes multimodais. O objetivo dessa função é otimizar o alinhamento entre as diferentes modalidades no contexto da MCIL.
Adicionalmente, os autores introduzem duas métricas de avaliação específicas para MCIL, permitindo uma avaliação mais abrangente do desempenho do método. Experimentos extensivos realizados em três conjuntos de dados multimodais diferentes validam a eficácia da abordagem proposta, demonstrando resultados de ponta em várias configurações de tarefas.
Este estudo é notável por ser um dos primeiros a aplicar modelos multimodais pré-treinados a tarefas de classificação contínua, abrindo novas perspectivas para a pesquisa em Aprendizagem Incremental de Classes Multimodais.