10.3969/j.issn.1000-1220.2020.04.037
无监督分词算法在新词识别中的应用
新词识别过程中,使用分词工具进行预分词的方法,受限于训练语料而对某些领域的分词准确率不佳.针对这个问题,本文提出了一种改进方法.该方法首先基于元语言模型进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现.同时方法中还结合了命名实体识别对发现的结果进行过滤,得到候选词组后使用网格搜索寻找最优的超参数组合.实验选取四种不同领域的语料,在统一的超参数下,前10%的新词准确率分别达到了88. 3% 、80. 5% 、85. 9% 、91. 9% .实验表明,这种无监督的分词方法适用于新词识别领域,并具备良好的领域适应性.
新词识别、互信息、邻接熵、N元语言模型、中文分词
41
TP391(计算技术、计算机技术)
安徽省教育厅重点项目;国家重点研发计划专项项目
2020-04-21(万方平台首次上网日期,不代表论文的发表时间)
共5页
888-892