10.3969/j.issn.1673-159X.2018.06.006
中文分词交叉型歧义消解算法
中文分词是自然语言处理的基础.交叉型歧义是提高中文分词精度的瓶颈之一.文章提出一种基于正向、负向最大匹配算法和passive aggressive(PA)算法结合的交叉型歧义消解算法.基于PA算法训练分词模型;利用正向、负向最大匹配算法检测交叉型歧义的位置;把可能出现交叉型歧义的句子或者句子的部分传递给分词模型,解码得到分词结果;最后,把正向、负向最大匹配结果和分词模型解码结果拼接成最终的分词结果.利用PA算法基于2014年2—12月份人民日报数据训练分词模型、2014年1月份人民日报数据作为测试语料进行实验,得到交叉型歧义的准确率、召回率和F-score分别为98.32%、98.14%和98.23%,说明该方法有效可行.
中文分词、交叉型歧义、最大匹配算法、PA算法
37
TP391.1(计算技术、计算机技术)
2019-01-12(万方平台首次上网日期,不代表论文的发表时间)
共5页
32-36