Pular para o conteúdo principal

Modelos de Separação de Áudio Preservam Informação Espacial em Áudio Binaural?

Uma pesquisa recente publicada no arXiv investiga a capacidade de modelos existentes de separação de fontes musicais (MSS) em preservar a informação espacial presente no áudio binaural. O áudio binaural, embora crucial para experiências imersivas como em realidade virtual e aumentada, bem como para aplicações de acessibilidade, permanece relativamente pouco explorado na comunidade de recuperação de informação musical (MIR).

O estudo avaliou o desempenho de diversos modelos populares de MSS. Para isso, foram utilizados tanto conjuntos de dados estéreo padrão quanto novos conjuntos de dados binaurais sintetizados. A criação dos dados binaurais envolveu o uso de *stems* do conjunto MUSDB18-HQ e funções de transferência relacionadas à cabeça (HRTFs) de código aberto, posicionando as fontes instrumentais aleatoriamente no plano horizontal.

A avaliação da qualidade espacial dos *stems* separados foi realizada utilizando métricas baseadas em processamento de sinal e em pistas interaurais, como a diferença de tempo interaural (ITD) e a diferença de nível interaural (ILD). Os resultados obtidos indicam que os modelos de MSS projetados para áudio estéreo não conseguem preservar efetivamente a informação espacial essencial para manter a qualidade imersiva do áudio binaural. A degradação na qualidade espacial observada depende tanto da arquitetura do modelo utilizado quanto do instrumento alvo da separação.

Os autores concluem destacando as oportunidades valiosas para trabalhos futuros na intersecção da separação de fontes musicais e do áudio imersivo. A pesquisa aponta para a necessidade de desenvolver ou adaptar modelos de MSS que sejam capazes de lidar adequadamente com as características espaciais complexas do áudio binaural para atender às crescentes demandas por experiências de áudio mais realistas e imersivas.

Postagens mais visitadas deste blog

Extensão de Arquivo Iris: Um Novo Formato para Patologia Digital Eficiente

NeutroSENSE: Detecção de Intrusões em IoT com Lógica Neutrosófica e Abstenção Inteligente

Nova Técnica de Segmentação 3D de Músculos Flexores dos Dedos com Imagens Médicas

Nova Abordagem Data-Driven Explica Deepfakes de Áudio

Novas Fronteiras na Cosmologia: Energia Quântica em Limites Tipo Tempo e o Modelo Além do ΛCDM

Rastreamento em Tempo Real de Fio-Guia com Redes Siamesas para Procedimentos Endovasculares

Uma Teoria da Escalabilidade Computacional da Inferência em LLMs

Localização Multiuso com Deep Learning e Segmentação Semântica por Ângulo de Chegada

Modelos de Linguagem Grandes Transformando a Descoberta Científica