DOI：10.3969/j.issn.1673-629X.2021.08.005

基于WGAN的音频关键词识别研究

引用

摘要：

基于语音识别的关键词识别方法增大了关键词识别工作量,降低了识别效率,还使得识别准确率受语音识别和文字查找办法影响,并对无文字语言不适用.针对此问题,提出将Wasserstein生成式对抗网络(WGAN)应用于语音关键词识别中,利用生成器输出的生成序列分析语音中有无关键词.为了获取语音中关键词的位置信息,该文为WGAN网络定义了一个定位损失函数,以此保证生成的掩码序列可以精确定位出关键词的位置.在四川话、普通话和粤语三门语言的数据集上进行实验,结果表明该技术可以识别无文字语言的关键词,相比于模板匹配方法其识别速度有显著提升.

关键词：语音识别;音频关键词识别;深度学习;Wasserstein生成式对抗网络;关键词定位

所属期刊栏目：31

分类号：TP183(自动化基础理论)

资助基金：四川省重大科技专项项目2017GZDZX0002

在线出版日期：2021-09-06（万方平台首次上网日期，不代表论文的发表时间）

页数：共7页

页码：26-32

英文信息展示

期刊专题