DOI：10.3969/j.issn.1003-3254.2011.11.014

限定领域语言模型训练语料的词类扩展方法

引用

摘要：

限定领域的语言模型训练语料的搜集需要耗费大量的人力物力,如果语料搜集不充分,往往会造成数据稀疏的问题.解决该问题的方法有两种:1、采用数据平滑算法,降低模型的困惑度；2、对训练语料进行扩展.探索了对语言模型的训练语料进行半自动扩展的方法.该方法通过计算互信息将非限定领域的大规模语料分成若干词类,生成大词类表；再将该表中领域相关的词类提取出来,进行手动删减之后用于对限定领域的语言模型进行参数估计.实验表明,将该方法用于语音识别系统,能有效缩短语言模型训练语料的搜集时间,提高系统的识别率.

关键词：语料扩展、互信息、语言模型、语音识别、词类

所属期刊栏目：20

分类号：TP3;TP1

在线出版日期：2012-03-05（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：55-58

英文信息展示

期刊专题