Uma Teoria da Escalabilidade Computacional da Inferência em LLMs
Neste contexto, foi introduzido o Directed Stochastic Skill Search (DS3), uma estrutura geral que representa a inferência como uma travessia estocástica sobre um grafo de habilidades aprendido. A partir de uma instanciação simplificada, mas expressiva, o DS3 permite derivar expressões de forma fechada para o sucesso da tarefa e o custo computacional em uma ampla gama de estratégias de inferência, incluindo Chain-of-Thought (CoT) e Tree-of-Thought (ToT). Isso possibilita a análise comparativa em função da dificuldade da tarefa e da capacidade do modelo.
Para tal fim, uma estrutura gráfica tripartida anterior de primeiros princípios sobre o treinamento de LLMs foi estendida para incorporar a inferência. Adicionalmente, o DS3 é conectado a métodos empíricos que caracterizam o comportamento de escalabilidade de LLMs. A teoria recupera padrões observados empiricamente, como o escalonamento linear da precisão com o compute logarítmico, a variação nas estratégias de inferência preferenciais em função da dificuldade da tarefa e da capacidade do modelo, o comportamento emergente elicitado pelo raciocínio mesmo quando o desempenho se estabiliza sob o escalonamento de parâmetros, e o comportamento de best-of-N (BoN) e votação majoritária capturados dentro de uma estrutura analítica unificada.
Ao caracterizar explicitamente as interdependências entre treinamento e inferência, esta estrutura aprofunda a compreensão teórica e apoia o design algorítmico e a alocação de recursos de forma principiada. A escalabilidade computacional durante o treinamento e a inferência molda as capacidades do modelo e forma um sistema profundamente interdependente, de onde surgem custos de energia, decisões arquitetônicas e trade-offs de desempenho. Uma perspectiva unificada é essencial para guiar a alocação de recursos, prioridades de pesquisa e estruturas de políticas em direção a uma IA sustentável baseada na coevolução de treinamento e inferência.