基于改进PMI和最小邻接熵结合策略的未登录词识别
中文分词是中文自然语言处理的重要任务,其目前存在的一个重大瓶颈是未登录词识别问题.该文提出一种非监督的基于改进PMI和最小邻接熵结合策略的未登录词识别方法.滤除文本中无关识别的标点符号和特殊字符后,此方法先运用改进PMI算法识别出文本中凝聚程度较强的字符串,并通过停用词词表和核心词库的筛选过滤,得到候选未登录词;然后,计算候选未登录词的最小邻接熵,并依据词频-最小邻接熵判定阈值,确定出文本中的未登录词.通过理论及实验分析,此方法对不同的文本,在不需要长时间学习训练调整参数的情况下,即可生成个性化的未登录词词典,应用于中文分词系统后,其分词正确率、召回率分别达到81.49%、80.30%.
中文分词、未登录词识别、改进PMI算法、邻接熵
29
国家重点研发计划;浙江省自然科学基金;浙江省基础公益研究计划
2020-07-01(万方平台首次上网日期,不代表论文的发表时间)
共8页
181-188