10.3969/j.issn.1673-629X.2014.01.025
基于支持向量机和约束条件的新词识别研究
中文分词的关键技术之一在于如何正确切分新词,文中提出了一种新的识别新词的方法。借助支持向量机良好的分类性,首先对借助分词词典进行分词和词性标注过的训练语料中抽取正负样本,然后结合从训练语料中计算出的各种词本身特征进行向量化,通过支持向量机的训练得到新词分类支持向量。对含有模拟新词的测试语料进行分词和词性标注,结合提出的相关约束条件和松弛变量选取候选新词,通过与词本身特征结合进行向量化后作为输入与通过训练得到的支持向量机分类器进行计算,得到的相关结果与阈值进行比较,当结果小于阈值时判定为一个新词,而计算结果大于阈值的词为非新词。通过实验结果比较选取最合适的支持向量机核函数。
新词识别、支持向量机、约束条件、核函数
TP301(计算技术、计算机技术)
国家自然科学基金2002AA117010-07;内蒙古自治区教育科研基金GCRC09001;内蒙古师范大学校基金项目2012ZRYB007
2014-01-22(万方平台首次上网日期,不代表论文的发表时间)
共4页
98-101