10.3969/j.issn.1673-629X.2016.09.006
一种自适应建模的VAD方法
语音活动检测( Voice Activity Detection,VAD)是语音前端特征处理的一个重要环节,它直接影响到后续处理的效果和效率。主流的模型VAD对训练数据的依赖度过高,在不同场景下需要重新训练不同的模型,这带来的数据标注的工作量是非常惊人的。一种自适应建模的VAD方法结合了能量VAD和模型VAD的优点,成功地解决了这个问题。它对每一条语音在线地训练出语音和非语音模型,根据每一帧在模型上的似然度得分给它们打上标签,经过平滑后就可以很好地找到语音的起点和终点。实验结果表明,该方法取得了很好的效果, F1指标相比传统能量VAD提升了0.031,说话人分离错误率下降了0.45%。
语音活动检测、能量VAD、模型VAD、自适应建模
26
TP301(计算技术、计算机技术)
北京市科技计划项目Z141100006014002
2016-10-19(万方平台首次上网日期,不代表论文的发表时间)
共4页
26-29