Postagens

Mostrando postagens com o rótulo Visão Computacional

Rastreamento em Tempo Real de Fio-Guia com Redes Siamesas para Procedimentos Endovasculares

Um estudo recente disponível no arquivo arXiv, identificado como arXiv:2507.00051, apresenta um método inovador para o rastreamento em tempo real da ponta de fios-guia durante procedimentos endovasculares guiados por imagem. O artigo, intitulado "Real-Time Guidewire Tip Tracking Using a Siamese Network for Image-Guided Endovascular Procedures", foi desenvolvido por Tianliang Yao, Zhiqiang Pei, Yong Li, Yixuan Yuan e Peng Qi. Os autores propõem a utilização de uma rede siamesa, um tipo de arquitetura de rede neural, para realizar essa tarefa crítica. O rastreamento preciso e em tempo real da ponta do fio-guia é fundamental para a segurança e eficácia dos procedimentos endovasculares, que envolvem a navegação através dos vasos sanguíneos com o auxílio de imagens médicas. A capacidade de determinar a posição exata da ponta do fio-guia em cada momento permite aos médicos tomar decisões mais informadas e precisas, minimizando riscos e melhorando os resultados para os pacientes....

Monitoramento de Pragas em Armadilhas de Água com Contagem Confiável

A agricultura de precisão depende fundamentalmente do monitoramento preciso da população de pragas para a tomada de decisões eficazes. Uma limitação significativa nas atuais pesquisas de contagem automática de pragas baseadas em visão é a falta de avaliação da confiabilidade dos resultados em cenários do mundo real, onde a "verdade terrestre" (ground truth) muitas vezes não está disponível. Para superar essa barreira, um estudo recente propõe um método abrangente para avaliar a confiança na contagem de pragas em imagens, considerando informações relacionadas aos resultados da contagem e às condições ambientais externas. O processo envolve inicialmente o uso de uma rede de detecção de pragas para identificar e contar os indivíduos, extraindo informações relevantes do resultado da contagem. Em seguida, as imagens das pragas passam por avaliações de qualidade, complexidade e uniformidade de distribuição das pragas. As alterações na clareza da imagem causadas pela agitação ...

Nova Abordagem Robusta para Rastreamento de Rachaduras em Estruturas

Um estudo recente disponível no arquivo arXiv (arXiv:2506.22437) apresenta um framework inovador para o rastreamento da evolução de rachaduras em cenários de monitoramento da saúde estrutural (SHM) baseados em imagens. O artigo, intitulado "Robust Perspective Correction for Real-World Crack Evolution Tracking in Image-Based Structural Health Monitoring", aborda o desafio crítico do alinhamento preciso de imagens em condições reais, que frequentemente envolvem distorção de perspectiva, oclusões e baixo contraste. Os métodos tradicionais de detecção de características, como SIFT e SURF, que dependem de espaços de escala baseados em Gaussianas, tendem a suprimir bordas de alta frequência, tornando-os inadequados para a localização de rachaduras finas. Alternativas binárias mais leves, como ORB e BRISK, embora computacionalmente eficientes, frequentemente apresentam baixa repetibilidade de pontos-chave em superfícies texturizadas ou sombreadas. Para superar essas limitações...

Detectando Anomalias em Imagens Cerebrais com Modelos de Difusão Condicional

Pesquisadores propõem um novo arcabouço baseado em modelos de difusão condicional para a detecção guiada de anomalias em imagens de ressonância magnética (MRI) cerebrais. A abordagem visa superar a limitação de métodos de aprendizado supervisionado, que demandam grandes volumes de dados de indivíduos com doenças, algo nem sempre disponível, especialmente para condições raras. Métodos de detecção de anomalias não supervisionados baseados em reconstrução, particularmente aqueles que utilizam modelos de difusão, tornaram-se populares por permitirem o treinamento apenas com imagens saudáveis. No entanto, esses métodos partem do princípio de que um modelo treinado com dados normais não consegue representar ou reconstruir anomalias de forma precisa, uma suposição que frequentemente falha na prática, resultando em modelos que não reconstroem tecidos saudáveis corretamente ou não removem anomalias de forma eficaz. O trabalho apresenta um modelo de difusão condicional que integra imagens ...

Animação Facial 3D Expressiva Controlável com Difusão Multimodal

Um artigo recente disponível no arquivo arXiv, sob o identificador 2506.10007, apresenta um novo framework baseado em difusão para a criação de animações faciais 3D expressivas controláveis. Intitulado "Controllable Expressive 3D Facial Animation via Diffusion in a Unified Multimodal Space", o trabalho aborda desafios significativos na área de animação facial emocional controlada por áudio. Os autores destacam duas dificuldades principais nos métodos existentes: a dependência de sinais de controle unimodais (como vídeos, texto ou rótulos de emoção), que não exploram a força complementar de múltiplas modalidades para manipulação abrangente de emoções, e o mapeamento determinístico baseado em regressão, que limita a natureza estocástica das expressões emocionais e comportamentos não verbais, restringindo a expressividade das animações sintetizadas. Para superar esses obstáculos, a pesquisa propõe uma abordagem inovadora com duas contribuições chave. A primeira é uma estra...

Aprendizagem Incremental Multimodal com Modelos Pré-Treinados e Fusão Adaptativa

Um recente artigo disponível no repositório arXiv, intitulado "Leveraging Pre-Trained Models for Multimodal Class-Incremental Learning under Adaptive Fusion" (arXiv:2506.09999), apresenta um novo método para a Aprendizagem Incremental de Classes Multimodais (MCIL). Ao contrário das abordagens tradicionais que frequentemente se limitam às modalidades de visão e texto, este trabalho explora a MCIL abrangendo visão, áudio e texto simultaneamente. O principal desafio abordado é a integração eficaz de informações complementares dessas diferentes modalidades, enquanto se mitiga o problema do esquecimento catastrófico, comum em cenários de aprendizagem incremental. Para superar essas dificuldades, os autores propõem um método MCIL inovador baseado no uso de modelos multimodais pré-treinados. A arquitetura proposta inclui vários componentes-chave. Primeiramente, um Extrator de Características Incremental Multimodal (MIFE), baseado na estrutura Mixture-of-Experts (MoE), é introduzi...

Grafos Estruturados para Raciocínio Narrativo Visual em Quadrinhos

Um artigo recente disponível no arquivo de pré-publicação arXiv (ID 2506.10008) propõe um framework hierárquico baseado em grafos de conhecimento para a compreensão estruturada de narrativas visuais, com foco específico em mídias multimodais como quadrinhos. O trabalho, intitulado "Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics", detalha uma abordagem para decompor o conteúdo narrativo em múltiplos níveis. A metodologia apresentada no artigo decompõe o conteúdo de narrativas visuais desde arcos de história em macro-nível até segmentos de eventos mais granulares. Esses diferentes níveis são representados através de grafos de conhecimento integrados, que são capazes de capturar relacionamentos semânticos, espaciais e temporais presentes na narrativa. No nível individual do painel (quadro a quadro), o framework constrói grafos multimodais. Estes grafos conectam elementos visuais, como personagens, objetos e ações, com s...

Novo Framework e Datasets Sintéticos Aprimoram Análise de Imagens de ECG com Deep Learning

Um novo artigo de pesquisa introduz um framework open-source em Python e um conjunto de quatro datasets sintéticos de imagens de eletrocardiogramas (ECG), visando avançar tarefas críticas baseadas em deep learning na análise de ECG. O framework e os datasets resultantes são projetados para facilitar a digitalização de ECG, a detecção de regiões e nomes de derivações, e a segmentação de formas de onda em nível de pixel. Utilizando o dataset de sinais PTB-XL como base, o framework proposto gera quatro datasets de acesso aberto, cada um focado em um aspecto específico da análise de imagens de ECG. O primeiro dataset consiste em imagens de ECG em várias configurações de derivações pareadas com sinais de séries temporais para digitalização. O segundo fornece imagens de ECG anotadas com caixas delimitadoras no formato YOLO para a detecção de regiões e nomes de derivações. Os datasets três e quatro contêm imagens de derivação única recortadas com máscaras de segmentação compatíveis com mod...

Avaliando o Raciocínio Financeiro em IA: Um Novo Benchmark Multimodal e Abordagem de Aprendizagem por Erro

Um artigo recente disponível no arquivo de pré-publicações arXiv apresenta um novo benchmark e uma abordagem inovadora para compreender e aprimorar as capacidades de raciocínio financeiro em modelos de Inteligência Artificial (IA), com foco particular em modelos de linguagem grande (LLMs) e modelos multimodais grandes (MLLMs). O trabalho, intitulado "Understanding Financial Reasoning in AI: A Multimodal Benchmark and Error Learning Approach", foi escrito por Shuangyan Deng, Haizhou Peng, Jiachen Xu, Chunhou Liu, Ciprian Doru Giurcuaneanu e Jiamou Liu. A pesquisa introduz o benchmark FinMR (Financial Multimodal Reasoning), projetado para avaliar quão bem os modelos de IA raciocinam em contextos financeiros específicos. Reconhecendo que o raciocínio financeiro eficaz exige a compreensão de informações textuais e a interpretação de dados visuais complexos, como gráficos, tabelas e tendências, o FinMR integra ambas as modalidades para refletir desafios analíticos autênticos do...