Deep Research Bench: Um Novo Padrão para Avaliar Agentes de Pesquisa Web de IA
O Deep Research Bench é composto por 89 instâncias de tarefas de pesquisa web multi-etapa, abrangendo 8 categorias diversas com níveis variados de dificuldade. As respostas para essas tarefas foram cuidadosamente elaboradas por humanos qualificados, servindo como gabarito para avaliação.
Um componente crucial do Deep Research Bench é o ambiente **"RetroSearch"**. Este ambiente utiliza um grande conjunto congelado de páginas web raspadas, criando um cenário de pesquisa estático e controlável. Os criadores demonstraram que agentes operando neste ambiente "RetroSearch" offline apresentam desempenho comparável aos agentes que utilizam a "web ao vivo". Isso é fundamental, pois permite avaliações confiáveis dos modelos ao longo do tempo, sem a interferência das mudanças dinâmicas da web.
A estrutura inclui ferramentas robustas e scaffolding para facilitar o benchmarking dos principais LLMs à medida que são lançados, incluindo modelos como o o3 e o Gemini 2.5 Pro. O benchmark também emprega avaliações automatizadas dos extensos rastros de execução dos agentes para reportar o progresso ao longo do tempo em métricas importantes como alucinações, uso de ferramentas e esquecimento.
Adicionalmente, o Deep Research Bench foi utilizado para avaliar produtos comerciais de pesquisa web rotulados como "Deep Research", "Deep Search", "Search" ou "Research". Os resultados dessas avaliações estão disponíveis em um leaderboard público, promovendo transparência e comparação entre diferentes agentes e produtos. O projeto reside na área de Inteligência Artificial (cs.AI).