Pular para o conteúdo principal

Grafos Estruturados para Raciocínio Narrativo Visual em Quadrinhos

Um artigo recente disponível no arquivo de pré-publicação arXiv (ID 2506.10008) propõe um framework hierárquico baseado em grafos de conhecimento para a compreensão estruturada de narrativas visuais, com foco específico em mídias multimodais como quadrinhos. O trabalho, intitulado "Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics", detalha uma abordagem para decompor o conteúdo narrativo em múltiplos níveis.

A metodologia apresentada no artigo decompõe o conteúdo de narrativas visuais desde arcos de história em macro-nível até segmentos de eventos mais granulares. Esses diferentes níveis são representados através de grafos de conhecimento integrados, que são capazes de capturar relacionamentos semânticos, espaciais e temporais presentes na narrativa.

No nível individual do painel (quadro a quadro), o framework constrói grafos multimodais. Estes grafos conectam elementos visuais, como personagens, objetos e ações, com seus componentes textuais correspondentes, incluindo diálogos e legendas. Essa integração permite uma representação rica e interconectada dos elementos narrativos.

Os grafos gerados são integrados através dos diferentes níveis narrativos para dar suporte ao raciocínio sobre a estrutura da história, a continuidade dos personagens e a progressão dos eventos. Os autores aplicaram a abordagem a um subconjunto anotado manualmente do conjunto de dados Manga109. Eles demonstraram a capacidade do framework em suportar raciocínio simbólico em diversas tarefas narrativas. Isso inclui recuperação de ações, rastreamento de diálogos, mapeamento de aparição de personagens e reconstrução da linha do tempo dos painéis.

Os resultados da avaliação, conforme descrito no artigo, mostram alta precisão e recall em todas as tarefas, validando a coerência e a interpretabilidade do framework proposto. Os autores sugerem que este trabalho contribui com uma fundação escalável para análise de conteúdo baseada em narrativa, contação de histórias interativas e raciocínio multimodal em mídia visual. O artigo foi submetido à conferência ACM Multimedia 2025 e está atualmente sob revisão.

Postagens mais visitadas deste blog

Evolução Não Linear da Instabilidade de Sedimentação de Poeira Polidispersa Não Estratificada

Otimização de Preferências em Veículos Autônomos: A Abordagem Lexicográfica IBR

O Impacto Transformador do Observatório Pierre Auger em Malargüe

Fonocardiografia Fetal: Avaliação Padronizada para Detecção de Batimentos Cardíacos

DESA: Desvendando Propriedades Estelares com IA Multimodal

Desvendando o Cosmos: O Papel da Fotônica em Instrumentos Astronômicos de Próxima Geração

Emulação da Evolução de Halos de Matéria Escura com Modelos Generativos Gráficos

SSDs: Otimização Essencial para o Futuro do Armazenamento de Dados

PyMGal: Gerando Observações Ópticas Sintéticas de Simulações Astrofísicas

NeutroSENSE: Detecção de Intrusões em IoT com Lógica Neutrosófica e Abstenção Inteligente