Pular para o conteúdo principal

Deep Research Bench: Um Novo Padrão para Avaliar Agentes de Pesquisa Web de IA

O uso de modelos de linguagem grande (LLMs) integrados com funcionalidades de busca na web tornou-se uma aplicação comum da inteligência artificial moderna. No entanto, faltam avaliações diretas e controladas da qualidade desses agentes de pesquisa web de IA, especialmente considerando a natureza em constante mudança da internet. Para abordar essa lacuna, foi introduzido o **Deep Research Bench**, um novo benchmark projetado para avaliar o desempenho de agentes de IA em tarefas de pesquisa web complexas.

O Deep Research Bench é composto por 89 instâncias de tarefas de pesquisa web multi-etapa, abrangendo 8 categorias diversas com níveis variados de dificuldade. As respostas para essas tarefas foram cuidadosamente elaboradas por humanos qualificados, servindo como gabarito para avaliação.

Um componente crucial do Deep Research Bench é o ambiente **"RetroSearch"**. Este ambiente utiliza um grande conjunto congelado de páginas web raspadas, criando um cenário de pesquisa estático e controlável. Os criadores demonstraram que agentes operando neste ambiente "RetroSearch" offline apresentam desempenho comparável aos agentes que utilizam a "web ao vivo". Isso é fundamental, pois permite avaliações confiáveis dos modelos ao longo do tempo, sem a interferência das mudanças dinâmicas da web.

A estrutura inclui ferramentas robustas e scaffolding para facilitar o benchmarking dos principais LLMs à medida que são lançados, incluindo modelos como o o3 e o Gemini 2.5 Pro. O benchmark também emprega avaliações automatizadas dos extensos rastros de execução dos agentes para reportar o progresso ao longo do tempo em métricas importantes como alucinações, uso de ferramentas e esquecimento.

Adicionalmente, o Deep Research Bench foi utilizado para avaliar produtos comerciais de pesquisa web rotulados como "Deep Research", "Deep Search", "Search" ou "Research". Os resultados dessas avaliações estão disponíveis em um leaderboard público, promovendo transparência e comparação entre diferentes agentes e produtos. O projeto reside na área de Inteligência Artificial (cs.AI).

Postagens mais visitadas deste blog

Modelagem Estelar Avançada: Acoplamento 1D e 3D em Diferentes Metalicidades

Percepções de Professores sobre a Integração do GPT-4 no Ensino Médio

Nova Abordagem Data-Driven Explica Deepfakes de Áudio

IA e Topologia Preveem Ratings de Crédito Bancário com Nova Rede Neural

Melhorando a Compreensão de Cidades 3D com Integração Multimídia

Gerenciamento Ótimo de Energia em VE Autônomos sob Temperaturas Frias com Controle Preditivo

Extensão de Arquivo Iris: Um Novo Formato para Patologia Digital Eficiente

Localização Multiuso com Deep Learning e Segmentação Semântica por Ângulo de Chegada

Novo Limite Superior para a Quantidade de Holevo na Física Quântica

Novas Cotas para Hamiltonianos Quânticos 2-Locais via Grafos Token