MFCCs和DTW在拼音相似度中的研究

引用

摘要：

汉语拼音的模糊匹配在关键词匹配、语音纠错等场景占据着重要地位,而传统的模糊匹配方法无法计算不同声母、韵母之间的听觉相似度,只能简单地将其作为相同和不同的两种情形处理,这在实际使用中,容易受方言、发音习惯等因素影响匹配正确率.文章针对该问题,提出了一种基于梅尔频率倒谱系数(MFCCs)和加入惩罚系数的动态时间序列规整(DTW)的方法,计算汉语拼音中各部分的相似度.MFCCs能够提取声音频谱中符合人耳听觉特性的特征,而DTW方法能够计算时间序列的相似度.根据实验表明,该方法能较好地区分出汉语拼音中发音相似的音标,能够提高各种拼音模糊匹配场景的匹配性能和准确率.

关键词：拼音模糊匹配、拼音相似度、梅尔频率倒谱系数、动态时间序列规整

所属期刊栏目：18

分类号：TP18(自动化基础理论)

在线出版日期：2022-07-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：1-4,8

期刊专题