10.3969/j.issn.1006-9348.2009.07.090
基于支持向量机的汉语歧义切分算法
针对于解决交集型伪歧义字段的切分,提出了一种应用支持向量机的汉语歧义切分方法.歧义切分问题可看为一个模式分类问题,为提高字段处理能力,应用支持向量机方法建立分类模型.先对歧义字段进行特征提取,采用互信息来表示歧义字段.求解过程是一个有教师学习过程,从歧义字段中挑选出一些高频伪歧义字段,人工将其正确切分作为训练样本并代入SVM训练得到一个分类模型.在分类阶段将SVM和KNN相结合构造一个新的分类器,对于待识别歧义字段代入分类器即可得到切分结果.实验证明不仅具有一定的识别准确率,而且可以提高歧义切分速度.
支持向量机、核函数、伪歧义、特征提取
26
O234(控制论、信息论(数学理论))
高等学校人才强教计划资助项目PHR200906210;北京市教育委员会科研基地建设项目WYJD200902;北京市教育委员会科技计划项目KM200810037001;国家自然科学基金重点项目10673017
2009-10-16(万方平台首次上网日期,不代表论文的发表时间)
共4页
354-357