Uma Teoria da Escalabilidade Computacional da Inferência em LLMs
Modelos de Linguagem Grandes (LLMs) demandam recursos computacionais, energéticos e financeiros substanciais tanto no treinamento quanto na implementação. Enquanto as leis de escalabilidade para treinamento guiaram grande parte do progresso recente na área, os custos de inferência representam agora um componente significativo e crescente do ônus geral de recursos, especialmente para modelos focados em raciocínio. Caracterizações existentes de otimalidade computacional que consideram tamanho do modelo, tamanho do conjunto de dados e tokens de inferência isoladamente ou em combinações fixas podem negligenciar pontos de operação mais eficientes. Neste contexto, foi introduzido o Directed Stochastic Skill Search (DS3), uma estrutura geral que representa a inferência como uma travessia estocástica sobre um grafo de habilidades aprendido. A partir de uma instanciação simplificada, mas expressiva, o DS3 permite derivar expressões de forma fechada para o sucesso da tarefa e o custo computac...