基于双重注意力的声音事件定位与检测

引用

摘要：

近年来,声音事件定位与检测被广泛应用于各个领域.基于深度学习的声音事件定位与检测的网络模型难以准确捕捉输入特征图的空间和通道信息,从而导致声音事件定位和检测难度较大.提出了一种基于注意力的CECANet(coordinate and efficient channel attention network)网络模型.在残差模块中引入坐标注意力模块,使网络模型更集中关注特征图的空间坐标信息,然后在平均池化层后加入高效通道注意力模块,使网络模型更加关注特征之间的通道信息.实验结果表明,提出的网络模型在TAU-NIGENS Spatial Sound Events 2021数据集中,相较于基线模型性能有整体的提升,F1和LR提升到了0.720和0.728,ER和LE降低到0.393和11.71°.

关键词：声音事件定位与检测、注意力机制、卷积神经网络、深度学习

所属期刊栏目：59

分类号：TN192(真空电子技术)

资助基金：国家自然科学基金;国家自然科学基金;国家自然科学基金;国家级大学生创新创业训练计划项目;江西省文化艺术科学规划项目

在线出版日期：2023-10-16（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：99-105

英文信息展示

期刊专题