Postagens

Mostrando postagens com o rótulo Inteligência Artificial

Otimização de Preferências em Veículos Autônomos: A Abordagem Lexicográfica IBR

A crescente complexidade dos sistemas de veículos autônomos exige que eles sejam capazes de equilibrar múltiplos objetivos hierárquicos, como minimizar o tempo de viagem, garantir a segurança e coordenar-se eficientemente com o tráfego. Esse cenário pode ser modelado de forma eficaz por meio de "jogos de preferência ordenada". No entanto, a resolução desses jogos torna-se computacionalmente inviável à medida que o horizonte de tempo, o número de jogadores ou os níveis de preferência aumentam. As abordagens de horizonte móvel (receding horizon frameworks) têm sido utilizadas para mitigar a intratabilidade em horizontes longos, resolvendo sequencialmente jogos de menor duração, frequentemente com inicialização a quente. Contudo, essas abordagens não abordam a complexidade inerente aos métodos existentes para solucionar jogos de preferência ordenada. A necessidade de uma estratégia mais eficiente para lidar com essa complexidade é fundamental para o avanço dos sistemas autôno...

DESA: Desvendando Propriedades Estelares com IA Multimodal

A astrofísica estelar, campo dedicado ao estudo das estrelas, depende fundamentalmente de diversas modalidades de observação, principalmente curvas de luz fotométricas e dados espectroscópicos, para inferir propriedades estelares cruciais. Embora o aprendizado de máquina (ML) tenha promovido avanços significativos na análise de modalidades individuais, a informação complementar codificada entre essas diferentes fontes de dados permaneceu amplamente inexplorada até então. Nesse contexto, um novo modelo de fundação multimodal, denominado DESA (Dual Embedding model for Stellar Astrophysics), surge para revolucionar a forma como as propriedades estelares são inferidas. Desenvolvido por Ilay Kamai, Alex M. Bronstein e Hagai B. Perets, o DESA integra curvas de luz e espectros para aprender um espaço latente unificado e fisicamente significativo para as estrelas. O modelo DESA opera treinando encoders separados e específicos para cada modalidade, utilizando um esquema híbrido supervisio...

Ataques de Envenenamento em Modelos de Difusão: Análise e Defesa com Safe-Zone Training

Ataques de envenenamento de dados representam um desafio significativo para a robustez de modelos de difusão (DMs), especialmente em técnicas de personalização amplamente utilizadas como a Textual Inversion (TI). Uma pesquisa recente, intitulada "When and Where do Data Poisons Attack Textual Inversion?", realizada por Jeremy Styborski, Mingzhi Lyu, Jiayou Lu, Nupur Kapur e Adams Kong, aborda sistematicamente quando e onde esses ataques de envenenamento impactam a Textual Inversion, propondo uma nova defesa. O trabalho foi aceito para apresentação na ICCV. Os autores introduzem os "Semantic Sensitivity Maps", um método inovador para visualizar a influência do envenenamento em embeddings de texto. Através desta técnica, eles conseguem identificar e verificar experimentalmente que os modelos de difusão exibem um comportamento de aprendizado não uniforme ao longo dos passos de tempo, com foco em amostras de ruído mais baixo. Os ataques de envenenamento herdam esse vi...

Uma Teoria da Escalabilidade Computacional da Inferência em LLMs

Modelos de Linguagem Grandes (LLMs) demandam recursos computacionais, energéticos e financeiros substanciais tanto no treinamento quanto na implementação. Enquanto as leis de escalabilidade para treinamento guiaram grande parte do progresso recente na área, os custos de inferência representam agora um componente significativo e crescente do ônus geral de recursos, especialmente para modelos focados em raciocínio. Caracterizações existentes de otimalidade computacional que consideram tamanho do modelo, tamanho do conjunto de dados e tokens de inferência isoladamente ou em combinações fixas podem negligenciar pontos de operação mais eficientes. Neste contexto, foi introduzido o Directed Stochastic Skill Search (DS3), uma estrutura geral que representa a inferência como uma travessia estocástica sobre um grafo de habilidades aprendido. A partir de uma instanciação simplificada, mas expressiva, o DS3 permite derivar expressões de forma fechada para o sucesso da tarefa e o custo computac...

NeutroSENSE: Detecção de Intrusões em IoT com Lógica Neutrosófica e Abstenção Inteligente

Um novo trabalho de pesquisa intitulado "Deciding When Not to Decide: Indeterminacy-Aware Intrusion Detection with NeutroSENSE" propõe uma abordagem inovadora para a detecção de intrusões em ambientes de Internet das Coisas (IoT). O artigo, assinado por Eyhab Al-Masri, apresenta o NeutroSENSE, uma estrutura de ensemble aprimorada por lógica neutrosófica projetada para ser interpretável e eficaz na identificação de atividades maliciosas. O cerne do NeutroSENSE reside na integração de algoritmos de aprendizado de máquina populares, como Random Forest, XGBoost e Regressão Logística, com a lógica neutrosófica. Essa combinação permite que o sistema não apenas faça previsões sobre a natureza do tráfego de rede (malicioso ou benigno), mas também decomponha a confiança dessa previsão em três componentes: verdade (T), falsidade (F) e indeterminância (I). Essa quantificação da incerteza é um diferencial, pois fornece uma métrica clara (o componente I) para entender o quão incerta é ...

Hypertokens e HDRAM: Nova Memória Associativa para LLMs

Um artigo recente propõe uma nova abordagem para lidar com a aparente perda de precisão em Large Language Models (LLMs), reformulando o problema como uma questão de distribuição de informação no espaço latente. Intitulado "Hypertokens: Holographic Associative Memory in Tokenized LLMs", o estudo introduz a HDRAM (Holographically Defined Random Access Memory) como uma estrutura de memória simbólica inovadora. A pesquisa aborda especificamente o desafio da memória K:V e V:K em LLMs, tratando o espaço latente dos transformadores como um canal de espectro expandido. A HDRAM é construída sobre o conceito de hypertokens, que são códigos simbólicos estruturados que integram códigos corretores de erros (ECC) clássicos, computação holográfica e busca inspirada em computação quântica. Segundo o autor, esta estrutura permite que a HDRAM recupere informações distribuídas através de um processo de "desexpansão" (despreading) baseado em princípios bem definidos. Os hypertoke...

Métodos Estocásticos Aprimoram Modelagem de Prosódia em Síntese de Fala

Gerar prosódia expressiva para uma fala sintética continua sendo um desafio significativo na síntese de texto para fala (TTS), especialmente em sistemas que modelam explicitamente parâmetros como tom, energia e duração para maior interpretabilidade e controlabilidade. Embora métodos generativos tenham avançado rapidamente, capturar a variabilidade inerente à fala humana de forma controlável permanece uma tarefa complexa. Um estudo recente, detalhado no artigo "Investigating Stochastic Methods for Prosody Modeling in Speech Synthesis" disponível no arXiv (arXiv:2507.00227), investiga a eficácia de métodos estocásticos para esta tarefa. A pesquisa compara abordagens estocásticas, incluindo Normalizing Flows, Conditional Flow Matching e Rectified Flows, com uma linha de base determinística tradicional e realizações de fala humana real. As avaliações extensivas, tanto subjetivas quanto objetivas, demonstram que os métodos estocásticos são capazes de produzir prosódia natura...

Modelos de Linguagem Grandes Transformando a Descoberta Científica

Modelos de Linguagem Grandes (LLMs) estão emergindo como ferramentas poderosas com o potencial de remodelar fundamentalmente o cenário da descoberta científica. Longe de serem meras ferramentas de automação de tarefas específicas, os LLMs estão evoluindo para agentes cada vez mais autônomos, redefinindo processos de pesquisa e a colaboração entre humanos e IA. Uma análise sobre a aplicação de LLMs na ciência revela uma progressão em seus papéis, categorizada em três níveis distintos de autonomia: Ferramenta, Analista e Cientista. No nível mais básico, o LLM atua como Ferramenta, auxiliando pesquisadores humanos em tarefas bem definidas dentro de uma única etapa do método científico, com o objetivo principal de aumentar a eficiência. Isso inclui o suporte na revisão de literatura, coleta de informações, geração de ideias, formulação de hipóteses, planejamento de experimentos, execução, análise de dados e organização. Avançando, o LLM como Analista demonstra maior autonomia no proc...

Aprendizado de Máquina para Gestão Proativa de Água Subterrânea

Um artigo recente publicado no arXiv explora a aplicação de aprendizado de máquina para a gestão proativa de recursos hídricos subterrâneos, focando em sistemas de alerta precoce e alocação de recursos. Intitulado "Machine Learning for Proactive Groundwater Management: Early Warning and Resource Allocation", o estudo aborda os desafios do monitoramento tradicional da água subterrânea, que frequentemente enfrenta limitações devido à escassez de dados, restrições computacionais e saídas atrasadas. Para superar essas barreiras, os pesquisadores desenvolveram um pipeline de aprendizado de máquina projetado para prever categorias de níveis de água subterrânea. Este pipeline utiliza uma combinação de dados climáticos, registros hidrometeorológicos e atributos fisiográficos. O processamento desses dados é realizado através da estrutura de ensemble automatizado AutoGluon, que integra pré-processamento geoespacial, engenharia de atributos orientada pelo domínio e seleção automatiza...

Monitoramento de Pragas em Armadilhas de Água com Contagem Confiável

A agricultura de precisão depende fundamentalmente do monitoramento preciso da população de pragas para a tomada de decisões eficazes. Uma limitação significativa nas atuais pesquisas de contagem automática de pragas baseadas em visão é a falta de avaliação da confiabilidade dos resultados em cenários do mundo real, onde a "verdade terrestre" (ground truth) muitas vezes não está disponível. Para superar essa barreira, um estudo recente propõe um método abrangente para avaliar a confiança na contagem de pragas em imagens, considerando informações relacionadas aos resultados da contagem e às condições ambientais externas. O processo envolve inicialmente o uso de uma rede de detecção de pragas para identificar e contar os indivíduos, extraindo informações relevantes do resultado da contagem. Em seguida, as imagens das pragas passam por avaliações de qualidade, complexidade e uniformidade de distribuição das pragas. As alterações na clareza da imagem causadas pela agitação ...

MATER: Reconhecimento de Emoção na Fala com Representação Multimodal e Interpretável

Um artigo recente disponível no arquivo arXiv (arXiv:2506.19887) introduz o framework Multi-level Acoustic-Textual Emotion Representation (MATER), proposto como contribuição para o desafio Speech Emotion Recognition in Naturalistic Conditions (SERNC). O trabalho aborda o reconhecimento categórico de emoções e a predição de atributos emocionais na fala em condições do mundo real, que apresentam complexidades como variabilidade entre e dentro dos indivíduos. Para lidar com essas complexidades, o MATER emprega uma abordagem hierárquica inovadora que integra características acústicas e textuais em múltiplos níveis de representação: no nível da palavra, no nível da elocução e no nível de embedding. Essa fusão busca combinar pistas lexicais e acústicas de baixo nível com representações contextualizadas de alto nível. O objetivo é capturar efetivamente tanto as variações prosódicas finas quanto as nuances semânticas presentes na fala natural. Além da integração de características em múl...

Melhorando o Rastreamento de Voz com Embeddings de Locutor

Métodos tradicionais de rastreamento de locutores frequentemente dependem de observações espaciais para manter a identidade das trilhas ao longo do tempo. Contudo, essa abordagem encontra dificuldades em cenários com locutores intermitentes ou em movimento. Locutores que mudam de posição enquanto estão inativos podem gerar trajetórias espaciais descontínuas, desafiando a atribuição coerente de identidades. Um artigo recente propõe investigar o uso de *speaker embeddings* (incorporações de locutor) como uma solução para este problema. A abordagem centra-se na reatribuição de identidade pós-rastreamento, utilizando essas representações vetoriais da voz dos locutores. O método proposto aproveita informações relacionadas à trajetória fornecidas por uma etapa inicial de rastreamento, combinadas com o sinal de áudio multicanal. A técnica de *beamforming* (conformação de feixe) é empregada para realçar o sinal na direção das posições dos locutores, visando a extração de *embeddings* de ...

Nova Técnica de Poda Ortogonal Acelera 'Esquecimento' em Redes Neurais

A necessidade de remover seletivamente o conhecimento de classes específicas em redes neurais pré-treinadas, impulsionada por regulamentações de privacidade como a GDPR e a LGPD no Brasil, apresenta um desafio significativo no campo de machine unlearning. Métodos existentes frequentemente enfrentam um dilema entre a velocidade do processo de "esquecimento" e a preservação da acurácia preditiva em dados não relacionados à classe removida, resultando em alto custo computacional ou degradação do desempenho. Um novo artigo disponível no repositório arXiv, intitulado "Orthogonal Soft Pruning for Efficient Class Unlearning" (arXiv:2506.19891), propõe uma solução inovadora para este problema. Pesquisadores desenvolveram um framework de poda suave (soft pruning) baseado em regularização ortogonal de kernels convolucionais para alcançar um esquecimento rápido e preciso. O método proposto opera impondo restrições de ortogonalidade durante o treinamento. Isso ajuda a des...

Transações Seguras de Energia: Blockchain e IA Contra Fraude em Mercados Descentralizados

A evolução dos mercados de energia nos Estados Unidos, impulsionada pela negociação ponto a ponto (P2P) e a transição para redes descentralizadas, trouxe consigo novos e significativos desafios, particularmente no que diz respeito à segurança e autenticidade das transações energéticas. Diante desse cenário, uma pesquisa recente teve como objetivo desenvolver um sistema de transação de energia que fosse seguro, inteligente e eficiente para o mercado descentralizado dos EUA. O estudo propõe uma abordagem inovadora que interliga a tecnologia blockchain e a inteligência artificial (IA) para enfrentar desafios persistentes no mercado de energia distribuída. Especificamente, a pesquisa foca na segurança, na detecção de comportamento fraudulento e na confiabilidade do mercado. A base para esta pesquisa é um conjunto de dados composto por mais de 1,2 milhão de registros anonimizados de transações de energia. Esses registros foram gerados a partir de uma rede simulada de intercâmbio de en...

Animação Facial 3D Expressiva Controlável com Difusão Multimodal

Um artigo recente disponível no arquivo arXiv, sob o identificador 2506.10007, apresenta um novo framework baseado em difusão para a criação de animações faciais 3D expressivas controláveis. Intitulado "Controllable Expressive 3D Facial Animation via Diffusion in a Unified Multimodal Space", o trabalho aborda desafios significativos na área de animação facial emocional controlada por áudio. Os autores destacam duas dificuldades principais nos métodos existentes: a dependência de sinais de controle unimodais (como vídeos, texto ou rótulos de emoção), que não exploram a força complementar de múltiplas modalidades para manipulação abrangente de emoções, e o mapeamento determinístico baseado em regressão, que limita a natureza estocástica das expressões emocionais e comportamentos não verbais, restringindo a expressividade das animações sintetizadas. Para superar esses obstáculos, a pesquisa propõe uma abordagem inovadora com duas contribuições chave. A primeira é uma estra...

Arquitetura SC-CEE-Meta: Comunicação Semântica Otimiza Serviços de Metaverso

Com o avanço da tecnologia e a crescente busca por novas experiências audiovisuais, o metaverso tem ganhado um entusiasmo considerável. No entanto, sua implementação prática enfrenta desafios significativos, principalmente na transmissão de grandes volumes de dados, como cenas virtuais de alta resolução, entre plataformas em nuvem e dispositivos de Realidade Virtual (VR). A transmissão sem fio por dispositivos VR, limitada pela largura de banda insuficiente, resulta em problemas de velocidade e atraso (latência). Além disso, a má qualidade do canal de comunicação pode levar a erros de dados, deteriorando a experiência do usuário. Para mitigar esses problemas, pesquisadores propuseram a Arquitetura de Serviço de Metaverso Imersivo Colaborativo Nuvem-Borda-Terminal Habilitado por Comunicação Semântica (SC-CEE-Meta). Esta arquitetura inovadora integra três módulos principais: transmissão semântica de vídeo VR, síntese de vídeo e reconstrução de cena virtual 3D. A chave da abordagem ...

Grafos Estruturados para Raciocínio Narrativo Visual em Quadrinhos

Um artigo recente disponível no arquivo de pré-publicação arXiv (ID 2506.10008) propõe um framework hierárquico baseado em grafos de conhecimento para a compreensão estruturada de narrativas visuais, com foco específico em mídias multimodais como quadrinhos. O trabalho, intitulado "Structured Graph Representations for Visual Narrative Reasoning: A Hierarchical Framework for Comics", detalha uma abordagem para decompor o conteúdo narrativo em múltiplos níveis. A metodologia apresentada no artigo decompõe o conteúdo de narrativas visuais desde arcos de história em macro-nível até segmentos de eventos mais granulares. Esses diferentes níveis são representados através de grafos de conhecimento integrados, que são capazes de capturar relacionamentos semânticos, espaciais e temporais presentes na narrativa. No nível individual do painel (quadro a quadro), o framework constrói grafos multimodais. Estes grafos conectam elementos visuais, como personagens, objetos e ações, com s...

Modelagem de Perda de Transmissão de Infra-som com Deep Learning

Um novo estudo propõe a aplicação de métodos de deep learning para aprimorar a modelagem da perda de transmissão (TL) de infra-som na atmosfera média. Essa modelagem é crucial para avaliar a eficácia da rede global do Sistema Internacional de Monitoramento (IMS) de infra-som. Atualmente, ferramentas de propagação como o método da equação parabólica (PE) permitem uma modelagem detalhada das perdas de transmissão. No entanto, o alto custo computacional do método PE limita sua aplicação na exploração de um vasto espaço de parâmetros, essencial para operações de monitoramento. Uma abordagem anterior, explorada por Brissaud et al. em 2023, utilizou redes neurais convolucionais treinadas com campos de onda simulados regionalmente (< 1000 km da fonte) para prever perdas de transmissão de forma mais rápida. Contudo, essa metodologia enfrentou desafios, especialmente em altas frequências e sob condições de vento iniciais desfavoráveis, além de questões de causalidade onde ventos distantes...

IA e Topologia Preveem Ratings de Crédito Bancário com Nova Rede Neural

Um estudo recente explorou a aplicação de técnicas avançadas de inteligência artificial e análise topológica para aprimorar a previsão de ratings de crédito bancário. O artigo, intitulado "Prediction of Bank Credit Ratings using Heterogeneous Topological Graph Neural Networks" (arXiv:2506.06293), propõe um novo modelo chamado Heterogeneous Topological Graph Neural Network (HTGNN) para enfrentar os desafios inerentes à previsão precisa e oportuna dessas classificações cruciais para a estabilidade econômica. Agências como Standard & Poor's e Moody's fornecem ratings de crédito que influenciam significativamente a tomada de decisões por diversas partes interessadas no mercado financeiro. No entanto, a aplicação direta de Redes Neurais Gráficas (GNNs), que são eficazes na alavancagem de informações de rede, é frequentemente complicada pela indisponibilidade de um grafo completo de conexões interbancárias, muitas vezes devido a preocupações com privacidade. Para ...

Novo Framework e Datasets Sintéticos Aprimoram Análise de Imagens de ECG com Deep Learning

Um novo artigo de pesquisa introduz um framework open-source em Python e um conjunto de quatro datasets sintéticos de imagens de eletrocardiogramas (ECG), visando avançar tarefas críticas baseadas em deep learning na análise de ECG. O framework e os datasets resultantes são projetados para facilitar a digitalização de ECG, a detecção de regiões e nomes de derivações, e a segmentação de formas de onda em nível de pixel. Utilizando o dataset de sinais PTB-XL como base, o framework proposto gera quatro datasets de acesso aberto, cada um focado em um aspecto específico da análise de imagens de ECG. O primeiro dataset consiste em imagens de ECG em várias configurações de derivações pareadas com sinais de séries temporais para digitalização. O segundo fornece imagens de ECG anotadas com caixas delimitadoras no formato YOLO para a detecção de regiões e nomes de derivações. Os datasets três e quatro contêm imagens de derivação única recortadas com máscaras de segmentação compatíveis com mod...