10.3969/j.issn.1001-0645.2005.07.006
基于最大熵模型的交集型切分歧义消解
利用最大熵模型研究中文自动分词中交集型切分歧义的消解.模型输出的类别为两种:前两个字结合成词和后两个字结合成词.模型采用的特征为:待切分歧义字段的上下文各一个词、待切分歧义字段和歧义字段两种切分可能的词概率大小关系.通过正向最大匹配(FMM)和逆向最大匹配(BMM)相结合的分词方法,发现训练文本中的交集型歧义字段并进行标注,用于最大熵模型的训练.实验用1998年1月<人民日报>中出现的交集型歧义字段进行训练和测试,封闭测试正确率98.64%,开放测试正确率95.01%,后者比常用的词概率法提高了3.76%.
中文信息处理、汉语自动分词、交集型歧义、最大熵模型
25
TP391(计算技术、计算机技术)
2005-09-08(万方平台首次上网日期,不代表论文的发表时间)
共4页
590-593