Pular para o conteúdo principal

Modelos de Separação de Áudio Preservam Informação Espacial em Áudio Binaural?

Uma pesquisa recente publicada no arXiv investiga a capacidade de modelos existentes de separação de fontes musicais (MSS) em preservar a informação espacial presente no áudio binaural. O áudio binaural, embora crucial para experiências imersivas como em realidade virtual e aumentada, bem como para aplicações de acessibilidade, permanece relativamente pouco explorado na comunidade de recuperação de informação musical (MIR).

O estudo avaliou o desempenho de diversos modelos populares de MSS. Para isso, foram utilizados tanto conjuntos de dados estéreo padrão quanto novos conjuntos de dados binaurais sintetizados. A criação dos dados binaurais envolveu o uso de *stems* do conjunto MUSDB18-HQ e funções de transferência relacionadas à cabeça (HRTFs) de código aberto, posicionando as fontes instrumentais aleatoriamente no plano horizontal.

A avaliação da qualidade espacial dos *stems* separados foi realizada utilizando métricas baseadas em processamento de sinal e em pistas interaurais, como a diferença de tempo interaural (ITD) e a diferença de nível interaural (ILD). Os resultados obtidos indicam que os modelos de MSS projetados para áudio estéreo não conseguem preservar efetivamente a informação espacial essencial para manter a qualidade imersiva do áudio binaural. A degradação na qualidade espacial observada depende tanto da arquitetura do modelo utilizado quanto do instrumento alvo da separação.

Os autores concluem destacando as oportunidades valiosas para trabalhos futuros na intersecção da separação de fontes musicais e do áudio imersivo. A pesquisa aponta para a necessidade de desenvolver ou adaptar modelos de MSS que sejam capazes de lidar adequadamente com as características espaciais complexas do áudio binaural para atender às crescentes demandas por experiências de áudio mais realistas e imersivas.

Postagens mais visitadas deste blog

Evolução Não Linear da Instabilidade de Sedimentação de Poeira Polidispersa Não Estratificada

Otimização de Preferências em Veículos Autônomos: A Abordagem Lexicográfica IBR

O Impacto Transformador do Observatório Pierre Auger em Malargüe

Fonocardiografia Fetal: Avaliação Padronizada para Detecção de Batimentos Cardíacos

DESA: Desvendando Propriedades Estelares com IA Multimodal

Desvendando o Cosmos: O Papel da Fotônica em Instrumentos Astronômicos de Próxima Geração

Emulação da Evolução de Halos de Matéria Escura com Modelos Generativos Gráficos

SSDs: Otimização Essencial para o Futuro do Armazenamento de Dados

PyMGal: Gerando Observações Ópticas Sintéticas de Simulações Astrofísicas

NeutroSENSE: Detecção de Intrusões em IoT com Lógica Neutrosófica e Abstenção Inteligente