Pular para o conteúdo principal

Deep Research Bench: Um Novo Padrão para Avaliar Agentes de Pesquisa Web de IA

O uso de modelos de linguagem grande (LLMs) integrados com funcionalidades de busca na web tornou-se uma aplicação comum da inteligência artificial moderna. No entanto, faltam avaliações diretas e controladas da qualidade desses agentes de pesquisa web de IA, especialmente considerando a natureza em constante mudança da internet. Para abordar essa lacuna, foi introduzido o **Deep Research Bench**, um novo benchmark projetado para avaliar o desempenho de agentes de IA em tarefas de pesquisa web complexas.

O Deep Research Bench é composto por 89 instâncias de tarefas de pesquisa web multi-etapa, abrangendo 8 categorias diversas com níveis variados de dificuldade. As respostas para essas tarefas foram cuidadosamente elaboradas por humanos qualificados, servindo como gabarito para avaliação.

Um componente crucial do Deep Research Bench é o ambiente **"RetroSearch"**. Este ambiente utiliza um grande conjunto congelado de páginas web raspadas, criando um cenário de pesquisa estático e controlável. Os criadores demonstraram que agentes operando neste ambiente "RetroSearch" offline apresentam desempenho comparável aos agentes que utilizam a "web ao vivo". Isso é fundamental, pois permite avaliações confiáveis dos modelos ao longo do tempo, sem a interferência das mudanças dinâmicas da web.

A estrutura inclui ferramentas robustas e scaffolding para facilitar o benchmarking dos principais LLMs à medida que são lançados, incluindo modelos como o o3 e o Gemini 2.5 Pro. O benchmark também emprega avaliações automatizadas dos extensos rastros de execução dos agentes para reportar o progresso ao longo do tempo em métricas importantes como alucinações, uso de ferramentas e esquecimento.

Adicionalmente, o Deep Research Bench foi utilizado para avaliar produtos comerciais de pesquisa web rotulados como "Deep Research", "Deep Search", "Search" ou "Research". Os resultados dessas avaliações estão disponíveis em um leaderboard público, promovendo transparência e comparação entre diferentes agentes e produtos. O projeto reside na área de Inteligência Artificial (cs.AI).

Postagens mais visitadas deste blog

Evolução Não Linear da Instabilidade de Sedimentação de Poeira Polidispersa Não Estratificada

Otimização de Preferências em Veículos Autônomos: A Abordagem Lexicográfica IBR

O Impacto Transformador do Observatório Pierre Auger em Malargüe

Fonocardiografia Fetal: Avaliação Padronizada para Detecção de Batimentos Cardíacos

DESA: Desvendando Propriedades Estelares com IA Multimodal

Desvendando o Cosmos: O Papel da Fotônica em Instrumentos Astronômicos de Próxima Geração

Emulação da Evolução de Halos de Matéria Escura com Modelos Generativos Gráficos

SSDs: Otimização Essencial para o Futuro do Armazenamento de Dados

PyMGal: Gerando Observações Ópticas Sintéticas de Simulações Astrofísicas

NeutroSENSE: Detecção de Intrusões em IoT com Lógica Neutrosófica e Abstenção Inteligente