Postagens

Mostrando postagens com o rótulo Inteligência Artificial

MATER: Reconhecimento de Emoção na Fala com Representação Multimodal e Interpretável

Um artigo recente disponível no arquivo arXiv (arXiv:2506.19887) introduz o framework Multi-level Acoustic-Textual Emotion Representation (MATER), proposto como contribuição para o desafio Speech Emotion Recognition in Naturalistic Conditions (SERNC). O trabalho aborda o reconhecimento categórico de emoções e a predição de atributos emocionais na fala em condições do mundo real, que apresentam complexidades como variabilidade entre e dentro dos indivíduos. Para lidar com essas complexidades, o MATER emprega uma abordagem hierárquica inovadora que integra características acústicas e textuais em múltiplos níveis de representação: no nível da palavra, no nível da elocução e no nível de embedding. Essa fusão busca combinar pistas lexicais e acústicas de baixo nível com representações contextualizadas de alto nível. O objetivo é capturar efetivamente tanto as variações prosódicas finas quanto as nuances semânticas presentes na fala natural. Além da integração de características em múl...

Melhorando o Rastreamento de Voz com Embeddings de Locutor

Métodos tradicionais de rastreamento de locutores frequentemente dependem de observações espaciais para manter a identidade das trilhas ao longo do tempo. Contudo, essa abordagem encontra dificuldades em cenários com locutores intermitentes ou em movimento. Locutores que mudam de posição enquanto estão inativos podem gerar trajetórias espaciais descontínuas, desafiando a atribuição coerente de identidades. Um artigo recente propõe investigar o uso de *speaker embeddings* (incorporações de locutor) como uma solução para este problema. A abordagem centra-se na reatribuição de identidade pós-rastreamento, utilizando essas representações vetoriais da voz dos locutores. O método proposto aproveita informações relacionadas à trajetória fornecidas por uma etapa inicial de rastreamento, combinadas com o sinal de áudio multicanal. A técnica de *beamforming* (conformação de feixe) é empregada para realçar o sinal na direção das posições dos locutores, visando a extração de *embeddings* de ...

Nova Técnica de Poda Ortogonal Acelera 'Esquecimento' em Redes Neurais

A necessidade de remover seletivamente o conhecimento de classes específicas em redes neurais pré-treinadas, impulsionada por regulamentações de privacidade como a GDPR e a LGPD no Brasil, apresenta um desafio significativo no campo de machine unlearning. Métodos existentes frequentemente enfrentam um dilema entre a velocidade do processo de "esquecimento" e a preservação da acurácia preditiva em dados não relacionados à classe removida, resultando em alto custo computacional ou degradação do desempenho. Um novo artigo disponível no repositório arXiv, intitulado "Orthogonal Soft Pruning for Efficient Class Unlearning" (arXiv:2506.19891), propõe uma solução inovadora para este problema. Pesquisadores desenvolveram um framework de poda suave (soft pruning) baseado em regularização ortogonal de kernels convolucionais para alcançar um esquecimento rápido e preciso. O método proposto opera impondo restrições de ortogonalidade durante o treinamento. Isso ajuda a des...

Transações Seguras de Energia: Blockchain e IA Contra Fraude em Mercados Descentralizados

A evolução dos mercados de energia nos Estados Unidos, impulsionada pela negociação ponto a ponto (P2P) e a transição para redes descentralizadas, trouxe consigo novos e significativos desafios, particularmente no que diz respeito à segurança e autenticidade das transações energéticas. Diante desse cenário, uma pesquisa recente teve como objetivo desenvolver um sistema de transação de energia que fosse seguro, inteligente e eficiente para o mercado descentralizado dos EUA. O estudo propõe uma abordagem inovadora que interliga a tecnologia blockchain e a inteligência artificial (IA) para enfrentar desafios persistentes no mercado de energia distribuída. Especificamente, a pesquisa foca na segurança, na detecção de comportamento fraudulento e na confiabilidade do mercado. A base para esta pesquisa é um conjunto de dados composto por mais de 1,2 milhão de registros anonimizados de transações de energia. Esses registros foram gerados a partir de uma rede simulada de intercâmbio de en...

Animação Facial 3D Expressiva Controlável com Difusão Multimodal

Um artigo recente disponível no arquivo arXiv, sob o identificador 2506.10007, apresenta um novo framework baseado em difusão para a criação de animações faciais 3D expressivas controláveis. Intitulado "Controllable Expressive 3D Facial Animation via Diffusion in a Unified Multimodal Space", o trabalho aborda desafios significativos na área de animação facial emocional controlada por áudio. Os autores destacam duas dificuldades principais nos métodos existentes: a dependência de sinais de controle unimodais (como vídeos, texto ou rótulos de emoção), que não exploram a força complementar de múltiplas modalidades para manipulação abrangente de emoções, e o mapeamento determinístico baseado em regressão, que limita a natureza estocástica das expressões emocionais e comportamentos não verbais, restringindo a expressividade das animações sintetizadas. Para superar esses obstáculos, a pesquisa propõe uma abordagem inovadora com duas contribuições chave. A primeira é uma estra...

Arquitetura SC-CEE-Meta: Comunicação Semântica Otimiza Serviços de Metaverso

Com o avanço da tecnologia e a crescente busca por novas experiências audiovisuais, o metaverso tem ganhado um entusiasmo considerável. No entanto, sua implementação prática enfrenta desafios significativos, principalmente na transmissão de grandes volumes de dados, como cenas virtuais de alta resolução, entre plataformas em nuvem e dispositivos de Realidade Virtual (VR). A transmissão sem fio por dispositivos VR, limitada pela largura de banda insuficiente, resulta em problemas de velocidade e atraso (latência). Além disso, a má qualidade do canal de comunicação pode levar a erros de dados, deteriorando a experiência do usuário. Para mitigar esses problemas, pesquisadores propuseram a Arquitetura de Serviço de Metaverso Imersivo Colaborativo Nuvem-Borda-Terminal Habilitado por Comunicação Semântica (SC-CEE-Meta). Esta arquitetura inovadora integra três módulos principais: transmissão semântica de vídeo VR, síntese de vídeo e reconstrução de cena virtual 3D. A chave da abordagem ...

Grafos Estruturados para Raciocínio Narrativo Visual em Quadrinhos

Um artigo recente disponível no arquivo de pré-publicação arXiv (ID 2506.10008) propõe um framework hierárquico baseado em grafos de conhecimento para a compreensão estruturada de narrativas visuais, com foco específico em mídias multimodais como quadrinhos. O trabalho, intitulado "Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics", detalha uma abordagem para decompor o conteúdo narrativo em múltiplos níveis. A metodologia apresentada no artigo decompõe o conteúdo de narrativas visuais desde arcos de história em macro-nível até segmentos de eventos mais granulares. Esses diferentes níveis são representados através de grafos de conhecimento integrados, que são capazes de capturar relacionamentos semânticos, espaciais e temporais presentes na narrativa. No nível individual do painel (quadro a quadro), o framework constrói grafos multimodais. Estes grafos conectam elementos visuais, como personagens, objetos e ações, com s...

Modelagem de Perda de Transmissão de Infra-som com Deep Learning

Um novo estudo propõe a aplicação de métodos de deep learning para aprimorar a modelagem da perda de transmissão (TL) de infra-som na atmosfera média. Essa modelagem é crucial para avaliar a eficácia da rede global do Sistema Internacional de Monitoramento (IMS) de infra-som. Atualmente, ferramentas de propagação como o método da equação parabólica (PE) permitem uma modelagem detalhada das perdas de transmissão. No entanto, o alto custo computacional do método PE limita sua aplicação na exploração de um vasto espaço de parâmetros, essencial para operações de monitoramento. Uma abordagem anterior, explorada por Brissaud et al. em 2023, utilizou redes neurais convolucionais treinadas com campos de onda simulados regionalmente (< 1000 km da fonte) para prever perdas de transmissão de forma mais rápida. Contudo, essa metodologia enfrentou desafios, especialmente em altas frequências e sob condições de vento iniciais desfavoráveis, além de questões de causalidade onde ventos distantes...

IA e Topologia Preveem Ratings de Crédito Bancário com Nova Rede Neural

Um estudo recente explorou a aplicação de técnicas avançadas de inteligência artificial e análise topológica para aprimorar a previsão de ratings de crédito bancário. O artigo, intitulado "Prediction of Bank Credit Ratings using Heterogeneous Topological Graph Neural Networks" (arXiv:2506.06293), propõe um novo modelo chamado Heterogeneous Topological Graph Neural Network (HTGNN) para enfrentar os desafios inerentes à previsão precisa e oportuna dessas classificações cruciais para a estabilidade econômica. Agências como Standard & Poor's e Moody's fornecem ratings de crédito que influenciam significativamente a tomada de decisões por diversas partes interessadas no mercado financeiro. No entanto, a aplicação direta de Redes Neurais Gráficas (GNNs), que são eficazes na alavancagem de informações de rede, é frequentemente complicada pela indisponibilidade de um grafo completo de conexões interbancárias, muitas vezes devido a preocupações com privacidade. Para ...

Novo Framework e Datasets Sintéticos Aprimoram Análise de Imagens de ECG com Deep Learning

Um novo artigo de pesquisa introduz um framework open-source em Python e um conjunto de quatro datasets sintéticos de imagens de eletrocardiogramas (ECG), visando avançar tarefas críticas baseadas em deep learning na análise de ECG. O framework e os datasets resultantes são projetados para facilitar a digitalização de ECG, a detecção de regiões e nomes de derivações, e a segmentação de formas de onda em nível de pixel. Utilizando o dataset de sinais PTB-XL como base, o framework proposto gera quatro datasets de acesso aberto, cada um focado em um aspecto específico da análise de imagens de ECG. O primeiro dataset consiste em imagens de ECG em várias configurações de derivações pareadas com sinais de séries temporais para digitalização. O segundo fornece imagens de ECG anotadas com caixas delimitadoras no formato YOLO para a detecção de regiões e nomes de derivações. Os datasets três e quatro contêm imagens de derivação única recortadas com máscaras de segmentação compatíveis com mod...

Avaliando o Raciocínio Financeiro em IA: Um Novo Benchmark Multimodal e Abordagem de Aprendizagem por Erro

Um artigo recente disponível no arquivo de pré-publicações arXiv apresenta um novo benchmark e uma abordagem inovadora para compreender e aprimorar as capacidades de raciocínio financeiro em modelos de Inteligência Artificial (IA), com foco particular em modelos de linguagem grande (LLMs) e modelos multimodais grandes (MLLMs). O trabalho, intitulado "Understanding Financial Reasoning in AI: A Multimodal Benchmark and Error Learning Approach", foi escrito por Shuangyan Deng, Haizhou Peng, Jiachen Xu, Chunhou Liu, Ciprian Doru Giurcuaneanu e Jiamou Liu. A pesquisa introduz o benchmark FinMR (Financial Multimodal Reasoning), projetado para avaliar quão bem os modelos de IA raciocinam em contextos financeiros específicos. Reconhecendo que o raciocínio financeiro eficaz exige a compreensão de informações textuais e a interpretação de dados visuais complexos, como gráficos, tabelas e tendências, o FinMR integra ambas as modalidades para refletir desafios analíticos autênticos do...

Deep Research Bench: Um Novo Padrão para Avaliar Agentes de Pesquisa Web de IA

O uso de modelos de linguagem grande (LLMs) integrados com funcionalidades de busca na web tornou-se uma aplicação comum da inteligência artificial moderna. No entanto, faltam avaliações diretas e controladas da qualidade desses agentes de pesquisa web de IA, especialmente considerando a natureza em constante mudança da internet. Para abordar essa lacuna, foi introduzido o **Deep Research Bench**, um novo benchmark projetado para avaliar o desempenho de agentes de IA em tarefas de pesquisa web complexas. O Deep Research Bench é composto por 89 instâncias de tarefas de pesquisa web multi-etapa, abrangendo 8 categorias diversas com níveis variados de dificuldade. As respostas para essas tarefas foram cuidadosamente elaboradas por humanos qualificados, servindo como gabarito para avaliação. Um componente crucial do Deep Research Bench é o ambiente **"RetroSearch"**. Este ambiente utiliza um grande conjunto congelado de páginas web raspadas, criando um cenário de pesquisa e...

Otimização de Modelos de Machine Learning: Quantização Pós-Treinamento e Além

A área de Machine Learning tem presenciado um avanço significativo impulsionado por modelos cada vez maiores e mais complexos, capazes de realizar tarefas sofisticadas. No entanto, o tamanho e a complexidade desses modelos frequentemente resultam em altos custos computacionais e de memória, dificultando sua implantação em dispositivos com recursos limitados ou em larga escala. Para contornar esses desafios, pesquisadores e engenheiros exploram diversas técnicas de otimização de modelos. Uma abordagem proeminente é a Quantização Pós-Treinamento (PTQ - Post-Training Quantization). Essa técnica consiste em converter um modelo de machine learning já treinado, que geralmente utiliza representações de ponto flutuante de alta precisão (como FP32), para uma representação de menor precisão, como inteiros de 8 bits (INT8), sem a necessidade de retreinar o modelo do zero. O principal benefício da PTQ é a redução significativa no tamanho do modelo e no custo computacional durante a inferência, ...

Padrões Irreais: Uma Nova Abordagem para Entidades Não Existentes em IA

Um artigo recente intitulado "Unreal Patterns", de John Beverley e Jim Logan, introduz um novo framework destinado a aprimorar a forma como os sistemas de Inteligência Artificial representam informações sobre entidades que não existem no mundo real ou que são puramente hipotéticas. Isso inclui conceitos como personagens fictícios, projetos e protótipos ainda não realizados, simulações e cenários futuros. Tradicionalmente, a representação de tais entidades tem sido abordada de diversas maneiras, frequentemente envolvendo a criação de "instâncias fictícias" ou o uso de lógica modal. No entanto, os autores criticam essas abordagens, argumentando que elas podem levar a suposições metafísicas excessivas ou introduzir ineficiências computacionais que limitam suas aplicações práticas. A proposta central do artigo é modelar esses casos utilizando as intersecções de tipos de entidades que de fato existem, em vez de recorrer a "tokens" específicos para o que n...

Nova Abordagem Data-Driven Explica Deepfakes de Áudio

Uma nova pesquisa aborda o desafio de explicar por que modelos de detecção identificam áudios como falsos (deepfakes). Avaliar técnicas de explicabilidade, como SHAP e LRP, no contexto da detecção de deepfake de áudio é difícil devido à falta de anotações de verdade fundamental claras. Mesmo quando a verdade fundamental está disponível, esses métodos tradicionais frequentemente falham em fornecer explicações precisas. Para superar essa limitação, pesquisadores propuseram uma abordagem inovadora baseada em dados para identificar regiões com artefatos em áudios deepfake. O método utiliza pares de áudios reais e "vocoded" (sintetizados por vocoder), considerando a diferença em sua representação tempo-frequência como a verdade fundamental para a explicação. Essa representação é tipicamente um espectrograma log-magnitude, e a diferença entre o áudio falso (spoof) e o áudio real (bona fide) correspondente é usada para destacar as regiões de artefato. Para obter regiões significa...

Percepções de Professores sobre a Integração do GPT-4 no Ensino Médio

Um estudo recente explorou as percepções de professores do ensino médio sobre a integração do modelo de linguagem avançado GPT-4 em ambientes educacionais. O objetivo principal da pesquisa foi compreender como os educadores dessa etapa de ensino veem o potencial, os desafios e as implicações de utilizar ferramentas baseadas em inteligência artificial generativa em suas práticas pedagógicas e no cotidiano da sala de aula. A pesquisa buscou coletar dados qualitativos e, possivelmente, quantitativos para formar um panorama das atitudes e opiniões dos professores. Foram abordados temas como as expectativas em relação ao uso do GPT-4 para personalização do ensino, criação de materiais didáticos, suporte na avaliação de alunos e como ferramenta de apoio ao próprio trabalho docente. Paralelamente, foram investigadas as preocupações existentes, incluindo questões éticas, plágio, a precisão das informações geradas pela IA, a necessidade de formação e suporte técnico para os professores, e o ...