DOI：10.3969/j.issn.1000-1220.2005.08.027

开放式汉语自动分词的学习机制

引用

摘要：

针对统计模型词典动态适应性不高及大规模语料库建设中人工代价昂贵的问题,在基于统计的汉语自动分词基础上,引入了以错误驱动为基础的开放学习机制,通过有监督和无监督相结合的学习方法,建立了包含可信度修正和部分三元语法信息的多元分词模型,讨论了切分算法和人机交互中的具体问题,并通过实验确定模型系数和阈值 .实验结果表明,该分词模型经三次学习后,闭式分词中的切分错误有78.44%得到纠正,切分正确率达到99.43%,开式分词中的切分错误有63.56%得到纠正,切分正确率达到98.46%.系统具有较高的实用价值.

关键词：自动分词、开放式、学习机制、错误驱动

所属期刊栏目：26

分类号：TP391.1(计算技术、计算机技术)

资助基金：国家自然科学基金60373095

在线出版日期：2005-09-22（万方平台首次上网日期，不代表论文的发表时间）

页数：共5页

页码：1406-1410

英文信息展示

期刊专题