基于改进PMI和最小邻接熵结合策略的未登录词识别

引用

摘要：

中文分词是中文自然语言处理的重要任务,其目前存在的一个重大瓶颈是未登录词识别问题.该文提出一种非监督的基于改进PMI和最小邻接熵结合策略的未登录词识别方法.滤除文本中无关识别的标点符号和特殊字符后,此方法先运用改进PMI算法识别出文本中凝聚程度较强的字符串,并通过停用词词表和核心词库的筛选过滤,得到候选未登录词;然后,计算候选未登录词的最小邻接熵,并依据词频-最小邻接熵判定阈值,确定出文本中的未登录词.通过理论及实验分析,此方法对不同的文本,在不需要长时间学习训练调整参数的情况下,即可生成个性化的未登录词词典,应用于中文分词系统后,其分词正确率、召回率分别达到81.49％、80.30％.

关键词：中文分词、未登录词识别、改进PMI算法、邻接熵

所属期刊栏目：29

资助基金：国家重点研发计划;浙江省自然科学基金;浙江省基础公益研究计划

在线出版日期：2020-07-01（万方平台首次上网日期，不代表论文的发表时间）

页数：共8页

页码：181-188

英文信息展示

期刊专题