DOI：10.3969/j.issn.1001-0645.2005.07.006

基于最大熵模型的交集型切分歧义消解

引用

摘要：

利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月<人民日报>中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%.

关键词：中文信息处理、汉语自动分词、交集型歧义、最大熵模型

所属期刊栏目：25

分类号：TP391(计算技术、计算机技术)

在线出版日期：2005-09-08（万方平台首次上网日期，不代表论文的发表时间）

页数：共4页

页码：590-593

英文信息展示

期刊专题