Modelos de Separação de Áudio Preservam Informação Espacial em Áudio Binaural?
O estudo avaliou o desempenho de diversos modelos populares de MSS. Para isso, foram utilizados tanto conjuntos de dados estéreo padrão quanto novos conjuntos de dados binaurais sintetizados. A criação dos dados binaurais envolveu o uso de *stems* do conjunto MUSDB18-HQ e funções de transferência relacionadas à cabeça (HRTFs) de código aberto, posicionando as fontes instrumentais aleatoriamente no plano horizontal.
A avaliação da qualidade espacial dos *stems* separados foi realizada utilizando métricas baseadas em processamento de sinal e em pistas interaurais, como a diferença de tempo interaural (ITD) e a diferença de nível interaural (ILD). Os resultados obtidos indicam que os modelos de MSS projetados para áudio estéreo não conseguem preservar efetivamente a informação espacial essencial para manter a qualidade imersiva do áudio binaural. A degradação na qualidade espacial observada depende tanto da arquitetura do modelo utilizado quanto do instrumento alvo da separação.
Os autores concluem destacando as oportunidades valiosas para trabalhos futuros na intersecção da separação de fontes musicais e do áudio imersivo. A pesquisa aponta para a necessidade de desenvolver ou adaptar modelos de MSS que sejam capazes de lidar adequadamente com as características espaciais complexas do áudio binaural para atender às crescentes demandas por experiências de áudio mais realistas e imersivas.