10.3864/j.issn.0578-1752.2015.03.05
基于语音识别的农产品价格信息采集方法
【目的】将语音识别技术应用到农产品价格信息采集中,面向非特定人和限定词汇量的汉语普通话连续语音识别,提出一种适合于农产品价格采集环境的语音识别鲁棒性方法;以隐马尔科夫模型为基础,训练出适合该环境下的声学模型,以缓解因测试环境和训练环境不匹配而导致的识别率降低,进一步提高识别率。【方法】在数据采集和处理阶段,首先根据要识别的限定词汇按照一定的语法规则构建转换文法,利用该文法生成的脚本指导训练集和测试集录音;然后选择不同的农产品价格采集环境和不同的说话人进行语音采集,并进行准确的人工切分,最后构建出语音语料库;在模型训练阶段,选择自左向右无跳转结构的连续混合密度隐马尔科夫模型,对训练集中的数据提取39维的MFCC特征向量,用于模型训练。首先以单音素为建模单元,并分别训练基于隐马尔科夫模型的男声模型、女声模型及男女混合声学模型;然后,考虑到单音素稳定性差和易受协同发音现象影响等因素,以上下文相关的三音素为识别单元建模,重新训练上述模型;针对三音子建模单元带来的模型数量大量增加,进而造成的训练样本不足问题,采用决策树状态聚类方法来改善该问题;决策树的构建过程中,利用语音学知识,根据声母发音方式、发音部位的不同以及韵母构成、韵头的不同,划分出若干声韵母集合实现了二值问题集的设计;在此基础上,用增加混和高斯分量的方法来进一步使得模型描述更加精确;最后,为了解决信道的乘性噪声问题,在采用上述策略的同时利用CMN和CVN方法来缓解测试环境与训练环境不匹配问题,最终训练得到了相应的男声模型和女声模型。在测试阶段,对采用上述各方法后得到的不同模型,分别采用相同的测试集进行试验,得出不同方法下的句子识别率、词识别率以及精准度。【结果】三音子声学模型的识别性能明显优于单音素声学模型,女声模型和男声模型的性能均优于男女混合声学模型,决策树聚类方法对识别率的提高不明显但可以明显减少三音子模型的数量,混合高斯分量的增加对识别率具有一定提高但同时带来计算量的增加,CMN和CVN方法可以明显提高系统的识别性能。通过对不同地点和不同说话人进行测试,最终识别率男性为95.04%,女性为97.62%。【结论】语音识别技术应用到农产品价格信息采集过程中是可行的。本文提出了一种农产品价格采集环境下提高语音识别率的方法,试验证明通过该方法训练出的模型具有较好的识别性能,本研究方法为日后应用系统的开发奠定了基础。
语音识别、农产品价格、信息采集、倒谱均值方差归一化(CMVN)、决策树聚类
TP274.2;TP391;P208
国家自然科学基金61271364
2015-03-25(万方平台首次上网日期,不代表论文的发表时间)
共11页
449-459