蒙古文原始语料统计建模研究
蒙古文字符编码与字形之间的多对多复杂转换关系及录入不规范等众多原因导致原始语料存在严重的拼写多样化现象和字形拼写错误,成为大数据处理瓶颈.该文以蒙古文输入法为例,利用大词库和形码生成器,将原本基于读音正确的词晶格最佳路径搜索问题转换为基于形码词晶格路径搜索问题,很好地解决了原始文本统计建模问题.实验结果证明,该方法及字形归并的模型优化方法可显著提高输入效率,对所有蒙古文“音词转换”和“形词转换”研究都有广泛的参考价值.
蒙古文原始文本、统计建模、读音错误、字形错误、智能输入
31
TP391(计算技术、计算机技术)
国家电子发展基金2010年度、2011年度蒙古文专项;国家自然科学基金61163020;内蒙古自治区自然科基金2011MS0918
2017-04-17(万方平台首次上网日期,不代表论文的发表时间)
共8页
118-125