10.3969/j.issn.1673-4793.2019.02.003
基于卷积神经网络的声学场景分类算法研究
声学场景中包含着很多长时特征和短时特征.本文提取环境声的能量信息,批量生成声音场景的三维语谱图,作为卷积神经网络的输入.神经网络采用卷积层和下采样层重复交叠,整体网络采用六层网络结构,最终经过softmax方法进行多分类.实验采用DCASE2017竞赛数据集作为素材,对15类6300段音频进行训练测试,结果表明,语谱图特征与卷积神经网络相结合的算法能够很好的提取长时特征和短时特征,使得最终分类准确率较高,优于网站基线系统的分类结果.
声学场景、语谱图、卷积神经网络
26
TP273+.21(自动化技术及设备)
中国传媒大学中央高校基本科研业务费专项资金资助 NO.2018CUCTJ077;NO.CUC18QB46
2019-09-27(万方平台首次上网日期,不代表论文的发表时间)
共7页
24-30