DOI：10.3969/j.issn.1673-4793.2019.02.003

基于卷积神经网络的声学场景分类算法研究

引用

摘要：

声学场景中包含着很多长时特征和短时特征.本文提取环境声的能量信息,批量生成声音场景的三维语谱图,作为卷积神经网络的输入.神经网络采用卷积层和下采样层重复交叠,整体网络采用六层网络结构,最终经过softmax方法进行多分类.实验采用DCASE2017竞赛数据集作为素材,对15类6300段音频进行训练测试,结果表明,语谱图特征与卷积神经网络相结合的算法能够很好的提取长时特征和短时特征,使得最终分类准确率较高,优于网站基线系统的分类结果.

关键词：声学场景、语谱图、卷积神经网络

所属期刊栏目：26

分类号：TP273+.21(自动化技术及设备)

资助基金：中国传媒大学中央高校基本科研业务费专项资金资助 NO.2018CUCTJ077;NO.CUC18QB46

在线出版日期：2019-09-27（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：24-30

英文信息展示

期刊专题