DOI：10.3969/j.issn.1000-3428.2012.12.038

自然语料缺乏的民族语言连续语音识别

引用

摘要：

以维吾尔语为例研究自然语料缺乏的民族语言连续语音识别方法.采用HTK通过人工标注的少量语料生成种子模型,引导大语音数据构建声学模型,利用palmkit工具生成统计语言模型,以Julius工具实现连续语音识别.实验用64个维语母语者自由发话的6 400个短句语音建立单音素声学模型,由100 MB文本、6万词词典生成基于词类的3-gram语言模型,测试结果表明,该方法的识别率为72.5％,比单用HTK提高4.2个百分点.

关键词：连续语音识别、种子模型、声学模型、语言模型、维吾尔语

所属期刊栏目：38

分类号：TP391(计算技术、计算机技术)

资助基金：国家自然科学基金资助面上项目2011211A012,60863008;新疆维吾尔自治区科技支疆基金资助项目201091106;博士启动基金资助项目BS090144

在线出版日期：2012-08-28（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：129-131,135

英文信息展示

期刊专题