10.3969/j.issn.1000-1220.2019.12.005
融合词预测的半监督老挝语词性标注研究
为有效对老挝语进行词性标注,提出一种融合词预测的半监督隐马尔科夫词性标注方法.首先,为解决未登录词标注问题,基于长短期记忆网络建立词预测模型,并改进维特比算法来将词预测模型融入隐马科夫模型中;其次,为提高隐马科夫模型标注的准确率与速度,使用规则与统计相结合的方法.制定了详细的老挝语法规则集,并将规则集与隐马科夫模型进行结合;再有,为扩展老挝语词性标注语料库规模,使用半监督学习方法,以得到正、反半监督隐马科夫模型;最后,为了解决隐马科夫模型未考虑后续词性对当前标注影响问题,使用正、反半监督隐马科夫模型进行词性标注,并优化了标注结果.实验结果证明,该方法可以有效标注老挝语词性,准确率达到92. 55% .
词预测、老挝语词性标注、隐马科夫模型、半监督学习
40
TP391(计算技术、计算机技术)
国家自然科学基金项目61662040,61562049
2020-01-06(万方平台首次上网日期,不代表论文的发表时间)
共6页
2500-2505