语料资源缺乏的连续语音识别方法的研究

引用

摘要：

由于少数民族语言有其本身的特点,不能简单地套用现有的连续语音识别的方法.本文以蒙古语为例,研讨了声学和语言模型的建立,并在日本国际电气通信基础技术研究所的连续语音识别器上实现了蒙古语的语音识别系统.本文侧重于语言模型的建立,基于蒙古语黏着性语言特点,提出用相似词聚类方法建立多类N-gram模型.实验结果显示,应用我们提出的语言模型,识别精度比用传统的词的N-gram识别法提高了5.5%.

关键词：蒙古语、黏着语言、相似词分类、连续语语音识别、多类语言模型

所属期刊栏目：36

分类号：TP3(计算技术、计算机技术)

资助基金：日本独立行政法人情报通信研究机构多语言高新技术语音-文本处理研究项目资助

在线出版日期：2010-07-14（万方平台首次上网日期，不代表论文的发表时间）

页码：550-557

英文信息展示

期刊专题