Postagens

Mostrando postagens com o rótulo Visão Computacional

Detectando Anomalias em Imagens Cerebrais com Modelos de Difusão Condicional

Pesquisadores propõem um novo arcabouço baseado em modelos de difusão condicional para a detecção guiada de anomalias em imagens de ressonância magnética (MRI) cerebrais. A abordagem visa superar a limitação de métodos de aprendizado supervisionado, que demandam grandes volumes de dados de indivíduos com doenças, algo nem sempre disponível, especialmente para condições raras. Métodos de detecção de anomalias não supervisionados baseados em reconstrução, particularmente aqueles que utilizam modelos de difusão, tornaram-se populares por permitirem o treinamento apenas com imagens saudáveis. No entanto, esses métodos partem do princípio de que um modelo treinado com dados normais não consegue representar ou reconstruir anomalias de forma precisa, uma suposição que frequentemente falha na prática, resultando em modelos que não reconstroem tecidos saudáveis corretamente ou não removem anomalias de forma eficaz. O trabalho apresenta um modelo de difusão condicional que integra imagens ...

Animação Facial 3D Expressiva Controlável com Difusão Multimodal

Um artigo recente disponível no arquivo arXiv, sob o identificador 2506.10007, apresenta um novo framework baseado em difusão para a criação de animações faciais 3D expressivas controláveis. Intitulado "Controllable Expressive 3D Facial Animation via Diffusion in a Unified Multimodal Space", o trabalho aborda desafios significativos na área de animação facial emocional controlada por áudio. Os autores destacam duas dificuldades principais nos métodos existentes: a dependência de sinais de controle unimodais (como vídeos, texto ou rótulos de emoção), que não exploram a força complementar de múltiplas modalidades para manipulação abrangente de emoções, e o mapeamento determinístico baseado em regressão, que limita a natureza estocástica das expressões emocionais e comportamentos não verbais, restringindo a expressividade das animações sintetizadas. Para superar esses obstáculos, a pesquisa propõe uma abordagem inovadora com duas contribuições chave. A primeira é uma estra...

Aprendizagem Incremental Multimodal com Modelos Pré-Treinados e Fusão Adaptativa

Um recente artigo disponível no repositório arXiv, intitulado "Leveraging Pre-Trained Models for Multimodal Class-Incremental Learning under Adaptive Fusion" (arXiv:2506.09999), apresenta um novo método para a Aprendizagem Incremental de Classes Multimodais (MCIL). Ao contrário das abordagens tradicionais que frequentemente se limitam às modalidades de visão e texto, este trabalho explora a MCIL abrangendo visão, áudio e texto simultaneamente. O principal desafio abordado é a integração eficaz de informações complementares dessas diferentes modalidades, enquanto se mitiga o problema do esquecimento catastrófico, comum em cenários de aprendizagem incremental. Para superar essas dificuldades, os autores propõem um método MCIL inovador baseado no uso de modelos multimodais pré-treinados. A arquitetura proposta inclui vários componentes-chave. Primeiramente, um Extrator de Características Incremental Multimodal (MIFE), baseado na estrutura Mixture-of-Experts (MoE), é introduzi...

Grafos Estruturados para Raciocínio Narrativo Visual em Quadrinhos

Um artigo recente disponível no arquivo de pré-publicação arXiv (ID 2506.10008) propõe um framework hierárquico baseado em grafos de conhecimento para a compreensão estruturada de narrativas visuais, com foco específico em mídias multimodais como quadrinhos. O trabalho, intitulado "Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics", detalha uma abordagem para decompor o conteúdo narrativo em múltiplos níveis. A metodologia apresentada no artigo decompõe o conteúdo de narrativas visuais desde arcos de história em macro-nível até segmentos de eventos mais granulares. Esses diferentes níveis são representados através de grafos de conhecimento integrados, que são capazes de capturar relacionamentos semânticos, espaciais e temporais presentes na narrativa. No nível individual do painel (quadro a quadro), o framework constrói grafos multimodais. Estes grafos conectam elementos visuais, como personagens, objetos e ações, com s...

Novo Framework e Datasets Sintéticos Aprimoram Análise de Imagens de ECG com Deep Learning

Um novo artigo de pesquisa introduz um framework open-source em Python e um conjunto de quatro datasets sintéticos de imagens de eletrocardiogramas (ECG), visando avançar tarefas críticas baseadas em deep learning na análise de ECG. O framework e os datasets resultantes são projetados para facilitar a digitalização de ECG, a detecção de regiões e nomes de derivações, e a segmentação de formas de onda em nível de pixel. Utilizando o dataset de sinais PTB-XL como base, o framework proposto gera quatro datasets de acesso aberto, cada um focado em um aspecto específico da análise de imagens de ECG. O primeiro dataset consiste em imagens de ECG em várias configurações de derivações pareadas com sinais de séries temporais para digitalização. O segundo fornece imagens de ECG anotadas com caixas delimitadoras no formato YOLO para a detecção de regiões e nomes de derivações. Os datasets três e quatro contêm imagens de derivação única recortadas com máscaras de segmentação compatíveis com mod...

Avaliando o Raciocínio Financeiro em IA: Um Novo Benchmark Multimodal e Abordagem de Aprendizagem por Erro

Um artigo recente disponível no arquivo de pré-publicações arXiv apresenta um novo benchmark e uma abordagem inovadora para compreender e aprimorar as capacidades de raciocínio financeiro em modelos de Inteligência Artificial (IA), com foco particular em modelos de linguagem grande (LLMs) e modelos multimodais grandes (MLLMs). O trabalho, intitulado "Understanding Financial Reasoning in AI: A Multimodal Benchmark and Error Learning Approach", foi escrito por Shuangyan Deng, Haizhou Peng, Jiachen Xu, Chunhou Liu, Ciprian Doru Giurcuaneanu e Jiamou Liu. A pesquisa introduz o benchmark FinMR (Financial Multimodal Reasoning), projetado para avaliar quão bem os modelos de IA raciocinam em contextos financeiros específicos. Reconhecendo que o raciocínio financeiro eficaz exige a compreensão de informações textuais e a interpretação de dados visuais complexos, como gráficos, tabelas e tendências, o FinMR integra ambas as modalidades para refletir desafios analíticos autênticos do...