10.11684/j.issn.1000-310X.2020.03.019
融合声纹信息的能量谱图在鸟类识别中的研究
常用的梅尔倒谱系数结合高斯混合模型(MFCC+GMM)方法的鸟鸣声识别技术难适应噪声环境,模型难以收敛,且计算复杂度高.该文提出一种融合声纹信息的能量谱图的鸟类识别方法(VPS-BR),该方法利用鸟类鸣声在能量谱图上所表现的多维差异性,定量识别鸣声声纹特征.通过对分贝能量进行颜色映射得到能量谱图,提取其视觉特征所表达的声学特征,分析归纳得到鸟类特有鸣声模式.在特征提取步骤中,选用识别速度快的局部二值模式、识别鲁棒性高的方向梯度直方图两个参数表征鸟鸣声谱图的边缘声纹;在识别步骤中,用局部二值模式和方向梯度直方图两种特征分别与支持向量机、K最近邻和随机森林3种分类器算法进行两两组合构建识别模型测试.对15种原始带噪鸟类鸣声数据集进行交叉验证,VPS-BR模型的平均识别率比MFCC+GMM组合模型高出11.3%,方向梯度直方图特征与K最近邻分类器的组合模型识别率达90.5%,表现出较好的抗噪性能和识别性能.最后针对样本数据集缺乏问题,使用生成对抗网络进行图像增强,进一步将识别率提升1.48%.
鸟类识别、能量谱图、局部二值模式、方向梯度直方图、生成对抗网络
39
TP391.04(计算技术、计算机技术)
2020-05-28(万方平台首次上网日期,不代表论文的发表时间)
共11页
453-463