DOI：10.3969/j.issn.1000-1220.2020.04.037

无监督分词算法在新词识别中的应用

引用

摘要：

新词识别过程中,使用分词工具进行预分词的方法,受限于训练语料而对某些领域的分词准确率不佳.针对这个问题,本文提出了一种改进方法.该方法首先基于元语言模型进行无监督预分词,再将词频、互信息和邻接熵作为主要特征进行新词发现.同时方法中还结合了命名实体识别对发现的结果进行过滤,得到候选词组后使用网格搜索寻找最优的超参数组合.实验选取四种不同领域的语料,在统一的超参数下,前10%的新词准确率分别达到了88. 3% 、80. 5% 、85. 9% 、91. 9% .实验表明,这种无监督的分词方法适用于新词识别领域,并具备良好的领域适应性.

关键词：新词识别、互信息、邻接熵、N元语言模型、中文分词

所属期刊栏目：41

分类号：TP391(计算技术、计算机技术)

资助基金：安徽省教育厅重点项目;国家重点研发计划专项项目

在线出版日期：2020-04-21（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：888-892

英文信息展示

期刊专题