DOI：10.3969/j.issn.1673-629X.2016.09.006

一种自适应建模的VAD方法

引用

摘要：

语音活动检测( Voice Activity Detection,VAD)是语音前端特征处理的一个重要环节,它直接影响到后续处理的效果和效率。主流的模型VAD对训练数据的依赖度过高,在不同场景下需要重新训练不同的模型,这带来的数据标注的工作量是非常惊人的。一种自适应建模的VAD方法结合了能量VAD和模型VAD的优点,成功地解决了这个问题。它对每一条语音在线地训练出语音和非语音模型,根据每一帧在模型上的似然度得分给它们打上标签,经过平滑后就可以很好地找到语音的起点和终点。实验结果表明,该方法取得了很好的效果, F1指标相比传统能量VAD提升了0.031,说话人分离错误率下降了0.45%。

关键词：语音活动检测、能量VAD、模型VAD、自适应建模

所属期刊栏目：26

分类号：TP301(计算技术、计算机技术)

资助基金：北京市科技计划项目Z141100006014002

在线出版日期：2016-10-19（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：26-29

英文信息展示

期刊专题