10.3969/j.issn.1000-7024.2012.03.079
词位标注汉语分词中特征模板定量研究
基于字的词位标注的方法能极大地提高汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,词位标注汉语分词中特征模板的设定至关重要,为了更加准确地设定特征模板,从多个角度进行了定量分析,并在国际汉语分词评测Bakeoff2005的PKU和MSRA两种语料上进行了封闭测试,得到如下结论:同等条件下,训练出的模型大小与扩展出的特征数成正比;不同的单字特征模板在同一语料中扩展出的特征数基本相同,单字特征模板对分词性能的贡献要比双字特征模板小得多;增加B特征模板之后,训练时间大大增加,模型大小基本不变,对分词性能都是正增长.
汉语分词、词位标注、特征模板、定量分析、条件随机场
33
TP391(计算技术、计算机技术)
高等学校博士学科点专项科研基金项目20050007023
2012-06-26(万方平台首次上网日期,不代表论文的发表时间)
共6页
1239-1244