DOI：10.3969/j.issn.1673-159X.2018.06.006

中文分词交叉型歧义消解算法

引用

摘要：

中文分词是自然语言处理的基础.交叉型歧义是提高中文分词精度的瓶颈之一.文章提出一种基于正向、负向最大匹配算法和passive aggressive(PA)算法结合的交叉型歧义消解算法.基于PA算法训练分词模型;利用正向、负向最大匹配算法检测交叉型歧义的位置;把可能出现交叉型歧义的句子或者句子的部分传递给分词模型,解码得到分词结果;最后,把正向、负向最大匹配结果和分词模型解码结果拼接成最终的分词结果.利用PA算法基于2014年2—12月份人民日报数据训练分词模型、2014年1月份人民日报数据作为测试语料进行实验,得到交叉型歧义的准确率、召回率和F-score分别为98.32％、98.14％和98.23％,说明该方法有效可行.

关键词：中文分词、交叉型歧义、最大匹配算法、PA算法

所属期刊栏目：37

分类号：TP391.1(计算技术、计算机技术)

在线出版日期：2019-01-12（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：32-36

英文信息展示

期刊专题