10.19734/j.issn.1001-3695.2018.02.0140
基于扩展规则与统计特征的未登录词识别
为提高各行业领域未登录词识别效果,提出一种基于扩展规则与统计特征的未登录词识别方法.分析行业领域未登录词构词特点,制定扩展规则,根据扩展规则对分词项进行扩展得到复合词,通过词频、互信息、邻接熵等统计特征判别复合词是否为未登录词.若为未登录词,则对其继续扩展和识别.六个行业领域和通用领域未登录词识别实验结果表明,提出的方法取得了较好的未登录词识别效果,具有较好的移植性.
未登录词、扩展规则、词频、互信息、邻接熵
36
TP391(计算技术、计算机技术)
2019-12-04(万方平台首次上网日期,不代表论文的发表时间)
共5页
2704-2707,2711