10.3969/j.issn.1002-0802.2021.08.010
一种基于多任务学习的语音关键词检测与定位方法研究
实践发现工程应用中语音关键词触发的具体定位能给下游模块提供有价值的信息,由此提出采用一种多任务学习机制对流式语音关键词进行检测的同时进行精确定位的方法.以语音关键词的定位为辅助任务联合优化模型,当检测到语音关键词时,激活设备并输出语音关键词的起始与结束帧,且整个模型建立在区域提案网络(Region Proposal Network,RPN)的端到端结构当中.实验结果表明在Mobvoihotwords数据集上,基于多任务学习的系统比基线系统的相对性能提升了6%~10%.实验模型在每小时较低次数误唤醒的指标下,比深度语音关键词检测(Deep-Keywords Spotting,Deep-KWS)系统性能提升15%.
语音关键词检测与定位;多任务学习;RPN网络;小规模
54
TP391.4(计算技术、计算机技术)
2021-09-02(万方平台首次上网日期,不代表论文的发表时间)
共5页
1869-1873