Postagens

Mostrando postagens com o rótulo Benchmark

Deep Research Bench: Um Novo Padrão para Avaliar Agentes de Pesquisa Web de IA

O uso de modelos de linguagem grande (LLMs) integrados com funcionalidades de busca na web tornou-se uma aplicação comum da inteligência artificial moderna. No entanto, faltam avaliações diretas e controladas da qualidade desses agentes de pesquisa web de IA, especialmente considerando a natureza em constante mudança da internet. Para abordar essa lacuna, foi introduzido o **Deep Research Bench**, um novo benchmark projetado para avaliar o desempenho de agentes de IA em tarefas de pesquisa web complexas. O Deep Research Bench é composto por 89 instâncias de tarefas de pesquisa web multi-etapa, abrangendo 8 categorias diversas com níveis variados de dificuldade. As respostas para essas tarefas foram cuidadosamente elaboradas por humanos qualificados, servindo como gabarito para avaliação. Um componente crucial do Deep Research Bench é o ambiente **"RetroSearch"**. Este ambiente utiliza um grande conjunto congelado de páginas web raspadas, criando um cenário de pesquisa e...