Postagens

Mostrando postagens com o rótulo Processamento de Linguagem Natural

Grafos Estruturados para Raciocínio Narrativo Visual em Quadrinhos

Um artigo recente disponível no arquivo de pré-publicação arXiv (ID 2506.10008) propõe um framework hierárquico baseado em grafos de conhecimento para a compreensão estruturada de narrativas visuais, com foco específico em mídias multimodais como quadrinhos. O trabalho, intitulado "Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics", detalha uma abordagem para decompor o conteúdo narrativo em múltiplos níveis. A metodologia apresentada no artigo decompõe o conteúdo de narrativas visuais desde arcos de história em macro-nível até segmentos de eventos mais granulares. Esses diferentes níveis são representados através de grafos de conhecimento integrados, que são capazes de capturar relacionamentos semânticos, espaciais e temporais presentes na narrativa. No nível individual do painel (quadro a quadro), o framework constrói grafos multimodais. Estes grafos conectam elementos visuais, como personagens, objetos e ações, com s...

Avaliando o Raciocínio Financeiro em IA: Um Novo Benchmark Multimodal e Abordagem de Aprendizagem por Erro

Um artigo recente disponível no arquivo de pré-publicações arXiv apresenta um novo benchmark e uma abordagem inovadora para compreender e aprimorar as capacidades de raciocínio financeiro em modelos de Inteligência Artificial (IA), com foco particular em modelos de linguagem grande (LLMs) e modelos multimodais grandes (MLLMs). O trabalho, intitulado "Understanding Financial Reasoning in AI: A Multimodal Benchmark and Error Learning Approach", foi escrito por Shuangyan Deng, Haizhou Peng, Jiachen Xu, Chunhou Liu, Ciprian Doru Giurcuaneanu e Jiamou Liu. A pesquisa introduz o benchmark FinMR (Financial Multimodal Reasoning), projetado para avaliar quão bem os modelos de IA raciocinam em contextos financeiros específicos. Reconhecendo que o raciocínio financeiro eficaz exige a compreensão de informações textuais e a interpretação de dados visuais complexos, como gráficos, tabelas e tendências, o FinMR integra ambas as modalidades para refletir desafios analíticos autênticos do...