Pular para o conteúdo principal

Uma Teoria da Escalabilidade Computacional da Inferência em LLMs

Modelos de Linguagem Grandes (LLMs) demandam recursos computacionais, energéticos e financeiros substanciais tanto no treinamento quanto na implementação. Enquanto as leis de escalabilidade para treinamento guiaram grande parte do progresso recente na área, os custos de inferência representam agora um componente significativo e crescente do ônus geral de recursos, especialmente para modelos focados em raciocínio. Caracterizações existentes de otimalidade computacional que consideram tamanho do modelo, tamanho do conjunto de dados e tokens de inferência isoladamente ou em combinações fixas podem negligenciar pontos de operação mais eficientes.

Neste contexto, foi introduzido o Directed Stochastic Skill Search (DS3), uma estrutura geral que representa a inferência como uma travessia estocástica sobre um grafo de habilidades aprendido. A partir de uma instanciação simplificada, mas expressiva, o DS3 permite derivar expressões de forma fechada para o sucesso da tarefa e o custo computacional em uma ampla gama de estratégias de inferência, incluindo Chain-of-Thought (CoT) e Tree-of-Thought (ToT). Isso possibilita a análise comparativa em função da dificuldade da tarefa e da capacidade do modelo.

Para tal fim, uma estrutura gráfica tripartida anterior de primeiros princípios sobre o treinamento de LLMs foi estendida para incorporar a inferência. Adicionalmente, o DS3 é conectado a métodos empíricos que caracterizam o comportamento de escalabilidade de LLMs. A teoria recupera padrões observados empiricamente, como o escalonamento linear da precisão com o compute logarítmico, a variação nas estratégias de inferência preferenciais em função da dificuldade da tarefa e da capacidade do modelo, o comportamento emergente elicitado pelo raciocínio mesmo quando o desempenho se estabiliza sob o escalonamento de parâmetros, e o comportamento de best-of-N (BoN) e votação majoritária capturados dentro de uma estrutura analítica unificada.

Ao caracterizar explicitamente as interdependências entre treinamento e inferência, esta estrutura aprofunda a compreensão teórica e apoia o design algorítmico e a alocação de recursos de forma principiada. A escalabilidade computacional durante o treinamento e a inferência molda as capacidades do modelo e forma um sistema profundamente interdependente, de onde surgem custos de energia, decisões arquitetônicas e trade-offs de desempenho. Uma perspectiva unificada é essencial para guiar a alocação de recursos, prioridades de pesquisa e estruturas de políticas em direção a uma IA sustentável baseada na coevolução de treinamento e inferência.

Postagens mais visitadas deste blog

Extensão de Arquivo Iris: Um Novo Formato para Patologia Digital Eficiente

NeutroSENSE: Detecção de Intrusões em IoT com Lógica Neutrosófica e Abstenção Inteligente

Nova Técnica de Segmentação 3D de Músculos Flexores dos Dedos com Imagens Médicas

Nova Abordagem Data-Driven Explica Deepfakes de Áudio

Novas Fronteiras na Cosmologia: Energia Quântica em Limites Tipo Tempo e o Modelo Além do ΛCDM

Rastreamento em Tempo Real de Fio-Guia com Redes Siamesas para Procedimentos Endovasculares

Modelos de Separação de Áudio Preservam Informação Espacial em Áudio Binaural?

Localização Multiuso com Deep Learning e Segmentação Semântica por Ângulo de Chegada

Modelos de Linguagem Grandes Transformando a Descoberta Científica