10.16798/j.issn.1003-0530.2021.05.008
一种面向自组织麦克风网络的多通道语音分离方法
针对自组织麦克风网络,如何充分有效地利用多通道语音数据获得更好的语音分离性能是一个难题.本文介绍了一种新的多通道语音分离方法,通过引入压缩激励脊髓模块,在麦克风位置未知时,也能显式地学习潜在的通道关系,自适应地更新各个通道对应特征的权重,以增加少量的额外计算代价达到增强语音分离的效果.压缩激励脊髓模块通过将多通道的特征信息压缩到通道维度,获得全局通道依赖关系的表征,利用激活函数根据通道关系表征对瓶颈单元筛选出有价值的特征信息.瓶颈单元由脊髓网络组成,通过逐步输入的方式生成全局信息和重新配置权重,更有效地处理数据.本文在基于LibriSpeech仿真的多通道版本数据中进行实验,在评估指标SDR和SI-SDR上相比于单通道基线获得了明显的提升,并取得超越最先进的自组织麦克风多通道方法的效果.
多通道语音分离、自组织麦克风网络、深度学习、时域卷积
37
TN912.3
深圳市基础学科布局项目JCYJ20180508152046428
2021-06-21(万方平台首次上网日期,不代表论文的发表时间)
共6页
757-762