Postagens

Mostrando postagens com o rótulo LLMs

Uma Teoria da Escalabilidade Computacional da Inferência em LLMs

Modelos de Linguagem Grandes (LLMs) demandam recursos computacionais, energéticos e financeiros substanciais tanto no treinamento quanto na implementação. Enquanto as leis de escalabilidade para treinamento guiaram grande parte do progresso recente na área, os custos de inferência representam agora um componente significativo e crescente do ônus geral de recursos, especialmente para modelos focados em raciocínio. Caracterizações existentes de otimalidade computacional que consideram tamanho do modelo, tamanho do conjunto de dados e tokens de inferência isoladamente ou em combinações fixas podem negligenciar pontos de operação mais eficientes. Neste contexto, foi introduzido o Directed Stochastic Skill Search (DS3), uma estrutura geral que representa a inferência como uma travessia estocástica sobre um grafo de habilidades aprendido. A partir de uma instanciação simplificada, mas expressiva, o DS3 permite derivar expressões de forma fechada para o sucesso da tarefa e o custo computac...

Modelos de Linguagem Grandes Transformando a Descoberta Científica

Modelos de Linguagem Grandes (LLMs) estão emergindo como ferramentas poderosas com o potencial de remodelar fundamentalmente o cenário da descoberta científica. Longe de serem meras ferramentas de automação de tarefas específicas, os LLMs estão evoluindo para agentes cada vez mais autônomos, redefinindo processos de pesquisa e a colaboração entre humanos e IA. Uma análise sobre a aplicação de LLMs na ciência revela uma progressão em seus papéis, categorizada em três níveis distintos de autonomia: Ferramenta, Analista e Cientista. No nível mais básico, o LLM atua como Ferramenta, auxiliando pesquisadores humanos em tarefas bem definidas dentro de uma única etapa do método científico, com o objetivo principal de aumentar a eficiência. Isso inclui o suporte na revisão de literatura, coleta de informações, geração de ideias, formulação de hipóteses, planejamento de experimentos, execução, análise de dados e organização. Avançando, o LLM como Analista demonstra maior autonomia no proc...

Deep Research Bench: Um Novo Padrão para Avaliar Agentes de Pesquisa Web de IA

O uso de modelos de linguagem grande (LLMs) integrados com funcionalidades de busca na web tornou-se uma aplicação comum da inteligência artificial moderna. No entanto, faltam avaliações diretas e controladas da qualidade desses agentes de pesquisa web de IA, especialmente considerando a natureza em constante mudança da internet. Para abordar essa lacuna, foi introduzido o **Deep Research Bench**, um novo benchmark projetado para avaliar o desempenho de agentes de IA em tarefas de pesquisa web complexas. O Deep Research Bench é composto por 89 instâncias de tarefas de pesquisa web multi-etapa, abrangendo 8 categorias diversas com níveis variados de dificuldade. As respostas para essas tarefas foram cuidadosamente elaboradas por humanos qualificados, servindo como gabarito para avaliação. Um componente crucial do Deep Research Bench é o ambiente **"RetroSearch"**. Este ambiente utiliza um grande conjunto congelado de páginas web raspadas, criando um cenário de pesquisa e...