Animação Facial 3D Expressiva Controlável com Difusão Multimodal
Um artigo recente disponível no arquivo arXiv, sob o identificador 2506.10007, apresenta um novo framework baseado em difusão para a criação de animações faciais 3D expressivas controláveis. Intitulado "Controllable Expressive 3D Facial Animation via Diffusion in a Unified Multimodal Space", o trabalho aborda desafios significativos na área de animação facial emocional controlada por áudio.
Os autores destacam duas dificuldades principais nos métodos existentes: a dependência de sinais de controle unimodais (como vídeos, texto ou rótulos de emoção), que não exploram a força complementar de múltiplas modalidades para manipulação abrangente de emoções, e o mapeamento determinístico baseado em regressão, que limita a natureza estocástica das expressões emocionais e comportamentos não verbais, restringindo a expressividade das animações sintetizadas.
Para superar esses obstáculos, a pesquisa propõe uma abordagem inovadora com duas contribuições chave. A primeira é uma estratégia de ligação emocional multimodal centrada em FLAME, que alinha diversas modalidades (texto, áudio e rótulos de emoção) através de aprendizado contrastivo. Isso permite um controle flexível da emoção a partir de múltiplas fontes de sinal. A segunda inovação é um modelo de difusão latente baseado em atenção, com atenção ciente do conteúdo e camadas guiadas por emoção. Este modelo visa enriquecer a diversidade de movimento, mantendo a coerência temporal e a dinâmica facial natural.
Experimentos extensivos demonstram que o método proposto supera abordagens existentes em várias métricas, alcançando uma melhoria de 21.6% na similaridade emocional, ao mesmo tempo que preserva dinâmicas faciais fisiologicamente plausíveis. O artigo foi aceito para apresentação na conferência ICME 2025. As áreas de estudo relacionadas incluem Multimídia, Inteligência Artificial e Visão Computacional.